首页>要闻>沸点 沸点
王小川:和柯洁对阵的AlphaGo 2.0没风格 稳如磐石

本文作者:王小川 最早发于知乎
该来的终于来了。
一年前AlphaGo发布,看完论文后我就在知乎上发文预测机器会完胜人类。好些行业朋友不相信,为此我收了很多“智商税”,之后微信发红包一直发到春节才发完。此外我还立了两个断言:一个是Google很有可能再研发出AlphaGo 2.0,摆脱“监督学习”,不再需要人类下围棋的历史数据,而是只通过“增强学习”,两台AlphaGo自我对战学习如何下棋,并达到登峰造极的地步。从公开的资料判断,此言中了。这意味着什么呢,又有什么看点呢?
技术重大提升:和1.0原理大不同 更接近于人
AlphaGo 1.0是巧妙地混合了三种算法:蒙特卡洛树搜索+监督学习+增强学习。其中蒙特卡洛树搜索是一种优化过的暴力计算,比1997年深蓝的暴力计算更聪明。而这里的监督学习,是通过学习3000万步人类棋谱,对六段以上职业棋手走棋规律进行模仿,也是AlphaGo获得突破性进展的关键算法。而增强学习作为辅助,是两台AlphaGo从自我对战众中学习如何下棋,据悉对棋力提升有限。
根据公开资料推测,此次AlphaGo2.0的技术原理与之前有着巨大不同:
1. 放弃了监督学习,没有再用人的3000万局棋谱进行训练。这本是AlphaGo最亮眼的算法,也是今天主流机器学习不可避免的核心条件:依赖于优质的数据,在这个特定问题下就这么被再次突破了。
2. 放弃了蒙特卡洛树搜索,不再进行暴力计算。理论上,算法越笨,就越需要暴力计算做补充。算法越聪明,就可以大大减少暴力计算。从AlphaGo 2.0的“马甲”Master的历史行为看,走棋非常迅速,约在每10秒钟就走棋一步,如此速度很可能是放弃了暴力的计算。
3. 极大地强化了增强学习的作用,之前敲边鼓的算法,正式成为扛把子主力。想想看有多励志:两台白痴机器,遵守走棋和获胜规则,从随机走棋开始日夜切磋,总结经验,不断批评和自我批评,一周后终成大器。
在这样的算法下,AlphaGo 2.0对计算资源开销极小,把当前棋局输入神经网络,电流流过,输出就是最佳的走棋方案。我猜测如此算法下,有可能仅仅依靠一个GPU工作,每一步棋消耗的能源接近人的大脑。
最大看点: AlphaGo2.0棋风完全脱离人类经验
今年年初,AlphaGo化身Master连胜人类顶尖棋手60局。在围棋领域,机器完胜已经变成公认的定论。这导致很多人开始问:这次人机大战还有意义吗?我们的关注点不再是机器是否会赢——而是机器将用什么姿势战胜人类。
AlphaGo学习了3000万步人类棋谱,走棋风格也近似于人。在比赛现场,偶有AlphaGo走棋和人的经验不符合,就被评为“愚蠢”,只是在中盘之后发现机器渐渐局面占优最终获胜,为了自圆其说解读为“AlphaGo中盘逆转”,前两局莫过如此。第三局开始评论者长了教训,开始尊称AlphaGo为“阿老师”,有了欣赏和敬畏的心态。这带给围棋界很大的冲击,以前大家认为正确的东西,其实是不正确的??陆嘣兰鬯担骸癆lphaGo出现,很多理论都被推翻,再看以前定式变得好笑,亏那么多目就不再是两分。”人类通过数千年实战,总结了围棋理论,然后计算机告诉人类:这些全都是错的。现在在很多比赛上,人类棋手已经开始向机器学习,模仿AlphaGo的下法,棋圣聂卫平也曾表示“理论被颠覆了”。
而AlphaGo2.0脱离了机器对人模仿,走棋风格也将完全脱离人的定式。在与柯洁的比赛中,会不断出现我们意想不到的走棋,而且这些走棋在教科书中会被认为是低级错误或者完全不可理喻,但凡一个正常的棋手都不会这么玩,但凡一个新手这么玩都会被点拨这样不对。而AlphaGo2.0会不断制造这样的局面,关键他还是对的??上攵宰ㄒ灯迨值男睦锘嵊卸啻蟮恼鸷常翰唤鲎约赫庖槐沧佣济徽饷聪牍饷聪缕?,整个围棋界都没有想过。会不会怀疑自己白活了?会不会反思两千年围棋的发展为什么有这样的瓶颈?还有多少海阔天空等着我们去探索?可等不及我们去探索,计算机就给出了终局的答案,多么惆怅。
我们会津津乐道,AlphaGo是什么棋风。但可以这样推理:但凡有流派和风格,就还有局限性。只有当所有流派合一看不出流派的时候,才到达致高境界。AlphaGo 2.0便会是这么一台机器,没有风格,稳如磐石。
可以想见这次与柯洁的对弈,能频现“怪招”,完全颠覆人类对围棋的理解——这会是比赛最大的看点。英勇的柯洁,要解锁108种姿势来抵挡了。
2017人机大战的意义:重演一部进化史 重新认识智慧的边界
2016年在AlphaGo和李世乭的对战后,人工智能进入大众的视野,我们开始重新思考机器和人的关系。
围棋已经有两千多年的历史,在漫长岁月的琢磨中,围棋理论不断进化,到达了很高的水准,AlphaGo的获胜,我们大可以解读于“青出于蓝”,毕竟是在人类围棋进化的主路径上又攀高峰。
而AlphaGo2.0完全抛弃掉人类这两千年来进化的围棋经验,另寻他径,仅凭两台机器自我对弈中学习和进化,最终不仅赶超了人类进化的速度,还发展出一套截然不同的下棋方法,并且更加接近完美的状态,实现了对人类的碾压,重演了一部围棋的进化史,而且得出了与这两千年来不同的进化结果。
这会给我们什么启示?如果跳出围棋的规则,类比看地球生命的进化:人类是从原始的有机物,到单细胞开始逐步变成灵长类动物,并且发展出超越其他一切生物的智慧。这条路径是唯一的么?人类的生命形态和最顶级的生命形态还有多大距离?AlphaGo告诉我们:我们还有极大的发展空间;AlphaGo2.0告诉我们:如果有合适的条件,完全可能有其他的生命进化路径,以及更不一样的进化结果。
让我们欢呼人的智慧造就了AlphaGo,这也帮我们开了眼界,看到我们离最终的生命形态和智慧依然有遥远的距离。
保持敬畏,坚定前行,终得圆满。
编辑:曾珂
关键词:柯洁 AlphaGo
 
       
 

 美再次发射“二手”猎鹰火箭 将10颗卫星送入轨道
美再次发射“二手”猎鹰火箭 将10颗卫星送入轨道 中国邮政发行《中央美术学院建校一百周年》纪念邮票
中国邮政发行《中央美术学院建校一百周年》纪念邮票 京城赏花正当时
京城赏花正当时 英国剑桥举行葬礼告别霍金
英国剑桥举行葬礼告别霍金 马西西接任博茨瓦纳总统
马西西接任博茨瓦纳总统 大湄公河次区域经济合作领导人会议通过多项成果文件
大湄公河次区域经济合作领导人会议通过多项成果文件 多伦多举行复活节游行
多伦多举行复活节游行 中国“最北”湿地迎来今年首批候鸟
中国“最北”湿地迎来今年首批候鸟
 法蒂玛·马合木提
法蒂玛·马合木提 王召明
王召明 王霞
王霞 辜胜阻
辜胜阻 聂震宁
聂震宁 钱学明
钱学明 孟青录
孟青录 郭晋云
郭晋云 许进
许进 李健
李健 覺醒法師
覺醒法師 吕凤鼎
吕凤鼎 贺铿
贺铿 金曼
金曼 黄维义
黄维义 关牧村
关牧村 陈华
陈华 陈景秋
陈景秋 秦百兰
秦百兰 张自立
张自立 郭松海
郭松海 李兰
李兰 房兴耀
房兴耀 池慧
池慧 柳斌杰
柳斌杰 曹义孙
曹义孙 毛新宇
毛新宇 詹国枢
詹国枢 朱永新
朱永新 张晓梅
张晓梅 焦加良
焦加良 张连起
张连起 龙墨
龙墨 王名
王名 何水法
何水法 李延生
李延生 巩汉林
巩汉林 李胜素
李胜素 施杰
施杰 王亚非
王亚非 艾克拜尔·米吉提
艾克拜尔·米吉提 姚爱兴
姚爱兴 贾宝兰
贾宝兰 谢卫
谢卫 汤素兰
汤素兰 黄信阳
黄信阳 张其成
张其成 潘鲁生
潘鲁生 冯丹藜
冯丹藜 艾克拜尔·米吉提
艾克拜尔·米吉提 袁熙坤
袁熙坤 毛新宇
毛新宇 学诚法师
学诚法师 宗立成
宗立成 梁凤仪
梁凤仪 施 杰
施 杰 张晓梅
张晓梅


