演讲全文>>
以下内容为胡国平演讲实录:
我们每个人都自带一个宇宙,就是人类的大脑。今天我要介绍的就是怎么样让计算机去模拟人类的大脑智力,我们称之为人工智能。
人工智能的起源是在1956年,几个世界上非常大牛的人物开了一个会,讨论怎么去做一个机器,让它能够像人一样的感知、认知、决策和执行的人工智能程序。我们基本上定义1956年是人工智能诞生的元年,经过60年的历史,人工智能也取得了很多进展。
我们先说人工智能的历史使命。工业革命把人类从重复性的体力劳动中解放出来,而信息技术把全世界联系在了一起,你可以和世界所有范围的友人进行沟通。人工智能的历史使命,定义是希望把人类从繁重的脑力劳动中解放出来;也有一种说法是:人工智能是最后一个需要人类自身的智慧去攻克的技术难题。
一旦人工智能真正意义上取得突破,类似于人脑的智慧程度,那么它的无成本复制、快速复制能力,使得以后所有的技术问题,都可以通过人工智能参与其中。
所以有一句话叫:“人工智能如此多娇,引无数英雄竞折腰。”目前来说,人工智能在过去的60年里,起起伏伏、三落三起。
在1956年提出后,1970年达到人工智能的第一次高潮,大家认为那时候人工智能可以做很多,包括数学定理证明等一系列的工作,大家认为很人工智能可以很快被突破,达到人类的智能。但是很快大家证明了技术上存在局限性,在很多其它的方面都不行。
在1990年左右,日本的第五代计算机等都提出了再一次吹响进攻人工智能的号角。但是不幸地是,在解决相关的很多人工智能真正智力问题上都没有有效的进展。在这种情况下,又进入了一个低谷。
从2006年开始的第三次人工智能浪潮,即使大家现在可能从各种方面的报道、新闻里,都已经亲身感受到了人工智能的存在和巨大的影响力。我们认为,现在正处在人工智能爆发前夜的水平和阶段。
我们分析人类智能的时候,会分成三个不一样的智能。计算机和人类相比,也有不一样的准备程度和水平。
第一个是计算智能,就是让计算机能存会算,比如下棋,比如快速检索百科全书等。显然机器的计算智能已经远远超过人类,现在已经很少有人会去自己去算一个很复杂的数学计算式,用计算器基本上就可做到。众所周知AlphaGo Zero在世界上最挑战人类智慧的围棋任务上,机器也已经以60比0的这样一个成绩,超越了人类围棋高手。
第二个智能阶段叫感知智能,就是计算机能听会说、能看会认,能够看清、理解外界。这不仅仅是人类所具有的一种智能,动物也具有,比如一条狗可以从川流不息的马路中穿行而过,因为它具有感官感知的智能。在这方面,机器在过去的5年里,在深度学习和大数据的支撑下,现在的机器已经在感知智能层面可以跟人类媲美了。
第三个阶段是认知智能,涉及到人类的自然语音理解等一系列的工作。这里涉及到自然语言的理解、知识的推理、逻辑的表达,以及一系列复杂方面,我们希望机器真正具备能理解、会思考这个能力。
目前来说,在认知智能这个水平上,与人类的这种智慧相比,人工智能还是有比较大的差距。换而言之,认知智能才是目前人类相比于动物而言的更高级的智能,也是相比于机器更高级的智能。
我先来给大家从感知智能方面的演示。
显然特朗普总统不会去说这样的话,这就是我们现在所说的机器智能,具备能听会说的能力,它已经可以做到模仿任何人说任何话。某种程度来说,以后你接到某一个电话,一定要确认一下,因为未必真的是那个人打给你的。这叫做语音合成,在开口说话的能力上,它已经可以达到这样一个水平。
另一个方面,就让计算机听懂人说的话。现在从技术的角度来说,也已经在语音转写任务上,已经首次超过了人工速录员的水平。这是在2015年的一个发布会上,我们实现了实时字幕的上屏。类似于我现在在演讲的过程中,文字字幕直接上传到大屏上。
我们做了一个技术和人的PK,机器转写系统的正确率达到了96.32%,其他五个速录员平均正确率大概只有50%。因为演讲的速度很快,相应的信息要完全记录下来,人去做会有一些局限性。所以机器在听人说话方面,也取得了很好的进展。
如果大家有兴趣了解现在语音识别最新技术的进展,大家可以下载一个输入法。上面有语音麦克风,点击麦克风对它说话,它就可以非常准确地把语音转成对应的文字。
刚才说的都是感知智能方面,某种程度上说,感知智能已经非常成功了,而且已经能够很有效地在生活和工作中使用。从研究的角度来说,我们自然而然做人工智能的研究,一定会去挑战和尝试认知智能任务。国内和国际都有非常多的研究者,始终努力在攻关这个问题,也定义了一系列所谓的测试任务。
图灵测试,一定程度上认为机器以欺骗的方式来骗过所谓人类观察员的方式,认为它是一个人类。但其实有更多的一些任务,是机器很难欺骗的。我们就举办了在国际上非常有名的比赛,叫winograd schema challenge,要用常识推理的任务来检验机器的智能。
这里举一个具体的例子。上图左下方的问题,6岁以上的小孩基本上可以得到百分之百的正确率。我们虽然拿到了世界第一的成绩,目前人工智能在这样的常识推理任务上,仅仅能达到60分的水平。在这样一个维度上,计算机和人类还是有明显的差距。
另外一个任务叫阅读理解,这是以检验人类智能的具体任务,来检验机器的智能。在斯坦福推出了一个叫SQuAD的阅读理解大赛,给机器读10万篇文章,然后抽出一些文章让人去问一些问题,看机器能不能回答出这些问题。
现在机器在这种问题的回答上的正确率上大概能做到85.3%,相比人类几乎是百分之百的这样一个智力水平而言,还是有比较大的差距的。
这是在2017年11月6号取得的人工智能历史上里程碑事件,在8月16日和27日,我们做了一个医考的机器人,参加了职业医师资格考试,11月6日和所有人类考生一起放榜。总分是600分,分数线是360分,智医助理最后拿到的分数是456分,以高出分数线96多分,通过了一个医生师资格考试。
这是一个人类人工智能历史上的重大的进步,换而言之,在某种程度上人工智能在技术上持续进步,在更多行业都有可能在一定程度上,取得更好进展。
很多人知道人工智能很热,但是不太准确知道人工智能为什么热?人工智能为什么火起来?无外乎三个主要的技术:深度神经网络、大数据、涟漪效应。
深度神经网络就是和人类的大脑中的神经系统一样,它是一个具有轴突和树突连接起来的网络,能够有效地实现输入的信号进行相应的反应和感应,最后得到一个输出的结果。这就是深度神经网络的概念,类似于人类的大脑一样,人类大脑有6层的神经网络,大概有100亿的神经元的规模。
现在深度神经网络也是让它有更多层的表示,比如输入一个照片,它能够自动地识别照片里的人物是谁。这就是我们现在用深度神经网络的方式来实现的人工智能,它更加强大、通用,也更耗训练数据。
它的关键突破就是和传统的模式识别相比,有效解决了以前很多科学家去分析任务的本身,并且从任务中提取相应影响最后结果的一些特征。机器可以自己从纷繁复杂的输入信号里,自己去找到对最终结果有影响、决策作用的一些因素,并且实现有效建模。】
也就是在整个的建模过程中,它已经去掉了科学家本来需要去做的一些特征工程的工作。所以人工智能的研发在一定程度上,被简化为准备好数据、训练好深度学习的模型,达到相应来说比较好的人工智能水平。
AlphaGo也是一样的,它是把19乘19这样的棋,当前黑棋、白棋和空的信息直接输入电脑,输入相关的神经网络,让它学到当前这一情况下,比如白棋赢的概率——“势”的感觉。
其实对于围棋的九段的高手来说,他也无法简单地描述清楚所谓的“势”的概念。但是机器用这种方式,自己从数千万副的自对弈的过程中学会了“势”的感觉。
说到人工智能,很多人都会说到“深度学习”这个词汇,因为深度学习已经被广泛地应用到整个人工智能的各种技术中,包括语音合成、语音识别以及声纹识别,包括手写识别、人脸识别等一系列任务,都是用深度神经网络这样大的一个框架下的技术方法。
从最开始简单地模拟人类大脑神经元的系统,到模拟人类的感觉和短时记忆的RNN网络;到模拟人类大脑有注意力的概念,叫Attention的机制;以及现在模拟人类大脑中视觉分层处理的CNN的一系列的网络,而且全球现在大部分的人工智能的专家、学者都在持续地研究和改进整个深度学习的算法。
这个技术的进步是非常非常快的,在我们研究院,每年会废掉30%到40%的代码,因为我们的技术持续在进化。
另一个概念就是刚才所说的大数据。现在机器所感受到的语音合成、语音识别、人脸识别的这种智能,它也不是平白无故产生的。它是由非常多的训练数据支撑,去达到神经网络的智能水平。
一般而言,现在大概的规模在1011的训练样本,去训107方的参数,在整个这个训练的过程中,每个参数最后在更新次数大概是109,是在非常强大的计算能力和大数据的支撑下,达到了现在的人工智能。
另外一个概念叫涟漪效应,这也是一个对人工智能从技术研发中很重要的概念。一个石头投入一个平静的水平面,会产生涟漪,往外一个个扩散。当人工智能的一个技术,比如说语音识别这项技术,投入新的市场后,最开始接触到语音识别技术的人,最先会感受到的是错误率很大,就像最开始的涟漪的波纹一样。
但是随着这个技术的推广,对人工智能算法和技术持续的推动作用,越往后越到外围,所感受到的人工智能的错误就会越来越小。换而言之,就是第1000万个人第一次感受语音识别效果的时候,他会觉得语音识别能达到97%的正确率,这就是整个涟漪效应。
在涟漪效应的支撑下,语音识别的正确率在过去5年之内,每年错误率相对下降30%,从最开始85%的正确率一路飙升到现在的97%,甚至接近98%的正确率。
总结而言,人工智能专业技术公司的三大要素,就是顶尖的人工智能的算法及团队,独特优势的大数据的积累,以及能激起涟漪效应的规模。如果能把涟漪效应规模越来越大,相应而言,技术进步的机会就会越来越多。
一般来说有一个说法:“在人工智能的热潮里,只有持续进步得快,跑得快,才能最终跑得赢。”在这个方面,中美同步进入了无人区,中国是最有希望赢得未来。
我们刚才讲的更多是人工智能的技术,如果从人工智能应用的角度来说,无外乎两个大的应用模式。
一种方式就是把机器变得更聪明,使得人和机器的沟通能够像人与人沟通这样自由、便捷,我们叫自然交互来改变生活。另外一方面,某种程度上说,人工智能技术的努力目标,就是去寻找人们工作、生活中的重复性脑力劳动,并且想办法去帮助他,甚至是代替他。我们叫“智能学习,颠覆行业”。
首先是在人机交互的方面,大家越来越多地使用智能硬件,移动环境下使用相关的网络,或者整个设备的交互。我们推出来一种能够有效实现人机交互的解决方案,包括能够在远场3到5米的场景下,都能够实现有效的语音的识别,包括各种方言识别的支持。
机器在回答你的同时,也同时在听你新的一些命令,这样一种全双工的交互方式,以及如果你有错误,可以用语音的方式直接告诉它,哪个地方要想修正,以及和多人的对话,来实现更加自然便捷的人机交互模式。
现在大家也都知道,可能现在看到很多的各种玩具、音响、电视机、空调和相关的产品,已经越来越能听懂人说话。如果大家感兴趣的话,可以去市面上去体验更多人工智能的语音交互的相关产品。
另外一方面,也会把我们现在这样一种人工智能的技术,通过语音云的方式对外开放。给大家一个数字介绍现在人工智能的普及程度:现在大概有50多种不一样的人工智能的技术服务,有12亿的用户接入了语音云网络,来实现相关的人工智能的一些服务,每天访问的次数大概是40亿次。同时在整个语音上,已经有45万开发者。
第二个我只举一个例子,就是人工智能怎么样去寻找、替代人类在教育领域里人工智能的工作,也就是如何去替代、帮助老师的脑力劳动。
我们面向教育做了三个台阶的重要工作。
第一个是普通话水平测试。每年大概有400万的考生,2002年开始做这件事情,2007年通过国家语委鉴定,达到国家级评测员的水平。从2012年开始,所有的普通话水平测试全部是由机器做评委来进行打分。
我们在2007年开始做英语口语的评测,也是非常成功的技术。 同时我们现在也在做纸笔考试的智能阅卷,就是学生手写的答卷,机器来进行自动的评阅,由机器读完手写的结果之后,并且根据答案进行有效的评阅。目前来说,我们在语文作文和英语作文上,机器自动阅卷的效果,已经超过了人类的专家水平。
其实在人工智能的研究工作中,一定程度上也是面临挑战的。比如机器翻译,全世界都非常愿意接受WIFI这一功能,并且享受WIFI所带来的便易。但是在机器翻译60多年来的研究历史中,很多机器翻译的研究者非常努力,一直都没有真正实现人类不用学另外一种语言,直接用机器翻译来实现出国交流,或者阅读方面的能力。
不一样的地方在于,WIFI是一个人类自身所不具备的能力,人本身无法有效地连接到互联网或者其它的设备,需要用手机等设备作为媒介来实现,但是机器翻译始终在和人类自身的翻译、人类的多语言能力进行着PK。
类似的例子还有很多,比如现在的自动驾驶。如果从技术水平上来看,自动驾驶的技术水平已经很高了。但是人们就不愿意接受自动驾驶的车在马路上出现,出现交通事故相关的责任应该由谁负责等问题,都可能都会存在一系列的负面报道。作文批改也有同样的问题。
人类智能对人工智能的打击是无处不在的。虽然我们能做出很好的,包括运货机器人和搬运工,自动驾驶和驾驶员都有一个PK的关系,或者简单来说,人类智能都是人工智能的师父和竞争对手。
但是有一点是人类自身是无法比拟的,就是人工智能的无成本复制能力和持续向前进化的能力。比如一个英语大师的儿子,英语单词得一个个自己背起来,但是如果我们的系统能够做到语音识别达到97%的正确率,它可以让世界上所有的机器都可以具备这种能力,只需要接入相关的人工智能服务就可以了;另外一方面是持续向前进化,今年机器做到97%的正确率,那明年一定不会低于97%,只会越来越好,越来越高,这样的进化能力也是人类自身所无法比拟的。
我们也相信,我们会对人工智能习以为常。比如现在没有人再去夜观天象,因为现在天气预报的智能已经足够超越人类智能,所以大家会信任它。我们也坚信在未来,车、家具、家电都是可以用语音进行沟通的,每个人都有一个虚拟的助理。
我们一直坚持一个理念,就是“顶天立地”的人工智能概念。这张图是我们公司的园区里专门的一个石碑,上面刻着“顶天立地”四个字。
一个是我们顶天立地的追求,做人工智能的技术,核心技术要做到国际领先;同时相关的技术一定要进入到应用到亿万家庭,这是我们顶天立地的追求。
同时它也是一种方法论,只有核心做国际领先了,才能更有效地推动技术成果的立地;同时只有核心技术成果有效立地了,相关数据回来才能更加有效地保证核心技术持续保持国际领先。
我们一直是“顶天立地”的做事风格,从某种程度上说,我们的理想和追求,一直是“顶天”的,我们要去解开人类大脑智慧的奥秘。同时我们也是“立地”的,我们要脚踏实地的、一步一步地解决感知智能、认知智能、常识推理、阅读理解等一系列的技术问题。
我们一直坚信,我们可以在中国用人工智能建设美好世界。谢谢大家!