演讲全文>>
我今天带来的主题是AlphaGo Zero真的“无师自通”吗?
2016年发表在《Nature》这个最高级别的学术杂志上的文章,报道了AlphaGo的第一版,这一版是与人类选手一起比赛,最后获胜,对手是樊麾,AlphaGo Fan是它的第一个版本,紧接着是与李世石以四比一获胜的AlphaGo Lee这个版本。之后又在2017年初在网上有一个快棋赛的版本,这个版本以60盘棋完胜中日韩的所有顶尖高手,这就是AlphaGo Master,或者叫AlphaGo大师。Master版本微调以后,在2017年的5月在乌镇与柯洁对阵,以三比零战胜了柯洁。最后AlphaGo又有一次突破性的进展,那就是AlphaGo Zero,根本不学习人类的棋谱,根据围棋的规则,自己生成棋局,然后左右互搏最后形成棋力,之后进行了与前一辈,也就是AlphaGo Master对阵,完胜AlphaGo Master。
AlphaGo的版本当中,AlphaGo Zero和以前的版本相比,它最大的两个不同是什么呢?AlphaGo Zero不再输入以前的人类的棋手所用的棋盘特征,而是用棋子的位置直接输入来做。第二点,初始训练的时候不用棋盘,只需要知道结构和下棋的规则是什么。
电脑下棋,当前棋面之下确定下一步棋怎么走,关于棋盘的特征,人类总结很多概念和术语。这里面包括打吃、被打吃等,这是人类总结的经验。
学习人类的特征,从人类的棋局里面学习,当前这一步下一步有可能的步骤罗列出来,之后一步步往下推,把所有的可能列出来,之后去看什么时候在下一步的时候往下推,有多少次是赢的,有多少次是输的,赢的次数最多的做下一步,这种方法实际上需要降低它搜索的广度和深度,才有可能在很短的时间对奕,否则传统走势走不出来。
需要学习棋谱当中的特征,深度学习技术是一种特征学习技术,它构造了两个网络,一种是策略网络,一种是价值网络,策略网络,当前情况下下一步怎么做,价值网络就是棋势之下,下这一步棋价值多大。
深度学习是目前人工智能神经网络工具,真正AlphaGo Zero里面实际上卷积神经网络,它用了13层卷积神经网络做,下一步棋怎么下,给出落子选择器,要通过概率计算,这就是需要有一个策略网络,就是把下一步棋当中所有可能赢棋多的步骤选出来作为下一步。
在这个过程当中,走下一步哪一个更有价值,哪一个是臭棋,哪一个好一点的,哪一个是普通的,在原来棋谱当中选择下一步怎么走的办法。有一个方式,蒙特卡洛方法,从一筐苹果里挑出一个最大的,先拿起一个再拿起一个,哪个大就留下,小的就扔掉,然后再比,大的留下,小的扔掉。采样的次数越来越多,这样就达到最优解。
AlphaGo 胜了很多顶尖棋手,关键技术是蒙特卡洛树搜索技术,深度学习技术,还有增强学习技术,自身相互左右互搏,增强棋力。
AlphaGo Zero的突破,首先,输入变成了棋子的位置,第二,不再用人类的棋谱训练,而是基于围棋规则生成很多样例,然后做强化学习。
AlphaGo Zero按照它们披露出来的资料,实际上它很重要的方面,讲了一个,根本不需要人类的知识就搞定危机,这是它们所讲的,很有广告色彩的口号,但是事实上蒙特卡洛方法是人创造的方法,这是人的知识。
它完整的表述,除了纯粹的强化学习之外,还有基本的围棋规则,没有任何给定的人类知识。棋盘的规则结构不是知识吗?这是千年以来至少几百年以来总结出来的,原来的围棋结构和现在不一样。实际上,AlphaGo 所做的这件事情实际是冷启动、无实例、无样本的,初始的无实例并不意味着没有实例,没样本,因为人类总结的规则已经能够保证获得几乎所有的棋局,所有棋谱都可以概括,只要你有时间,因此AlphaGo Zero属于机器生成的大数据人工智能,我本人搞大数据挖掘技术。
它们到底起什么作用呢?期盼的结构,已经决定了明确的最终目标是什么,确定的学习方法,我们有强化学习方法,是人想出来的,有的是来自棋谱,有的是规则生成的实例。
算法上有强化学习,蒙特卡洛这些算法基础,计算上有分布式并行计算。因此我们说AlphaGo 不是无师自通,特别是AlphaGo Zero也不是无师自通,因为AlphaGo 不以人类的棋谱为学习的知识,但是自己生成了知识。所有的规则人和机器要遵守,机器不能自主改变规则,而人可以,这就是人下棋和机器下棋的不同,所以AlphaGo Zero不是无师自通的。
谢谢大家。