陈润生：生物大数据与AI大模型

中国科学院院士
演讲全文>>

大家好，我是陈润生。大家最近非常关心人工智能，我今天想就生物学研究与人工智能的关系做点介绍。

我参加过破译人的遗传密码的工作，也参与了水稻遗传密码的破译。正因为这些遗传密码的破译，人类社会第一次能够知道我们一代传一代、从小长到大的信息存在哪儿，它到底是什么样子的，怎么破解。这个发展过程实际上只有几十年的历史。

从我参加了人类基因组计划，分析遗传密码的生物信息，到现在已经30多年了，有一些体会跟大家进行交流。

人是由很多细胞组成的，原则上来讲，遗传密码存在于每个细胞里。换句话说，人有多少亿个细胞，但这数不清的细胞里都有一份遗传密码。

大家经常说克隆，为什么一个细胞就能长出一个个体，克隆牛、克隆羊，就是因为每一个细胞里都有遗传密码。只要条件合适，都能够恢复一个完整的个体。遗传密码实际上是一条链，没有分叉，这个链上只有4个符号，只不过它非常非常长。

这是一段真实的人的遗传密码。我有，在座的每个人都有。如果你没出生时把这段切掉的话，这辈子永远活不了。这段遗传密码里有决定人体功能的一些蛋白的信息。

人类的遗传密码非常长，3乘10的九次方，就是30亿，而且是只有4个符号反复出现的一个东西。1990年开始，全世界推行了人类基因组计划，实际上是集中全世界科学家的智慧和能力来破译人的遗传密码。

遗传密码测出来后，怎么读懂它？这是一个问题。读懂它就要挖掘遗传密码当中的信息，也就是要把用文字符号表示的信息变成了解生命功能的钥匙。这样一个过程我们叫做“生物信息学”，实际上是为破解遗传密码而产生的一门学科。

这门学科就是要把遗传密码搞清楚、读懂了，然后我们就知道人哪点好、哪点有缺陷，或者一个人为什么得病、为什么得肿瘤、肿瘤哪一点突变了等等一系列问题。这个数据我们称作“组学数据”，人的遗传密码称作基因组。

我们也可以测人其他方面的大数据，包括转录组、蛋白组等等，同时这也带动了生物医学相关的很多数据都成为了大数据。比方电子病历，每个人到医院看病大夫都要记病历，现在有了大数据的概念，我们可以把成千上万人的电子病历集中在一起，看看有没有规律性的东西。

再比方说，我们可以穿一个特殊的背心，戴一个特殊的手表来记录心跳、血压、血氧等生理指标。我们到医院做超声、做核磁，还有跟我们肠道里寄生的微生物，空气、水、土壤当中的污染物等这些跟健康有关的东西都可以变成大数据。

现在我们已经有了各种各样的数据。如何把这些数据放在一起进行好的挖掘，真正对一个人的健康状况做出准确的判断，这是现在大数据时代一个非常关键、需要迫切解决的问题。我们测的数据越来越多，连遗传密码都可以测了，那我们怎么挖掘其中的信息呢？

大家知道，这些数据非常不一样。比方说电子病历是大夫用文字写的，用自然语言记录。血压、脉搏是一些波形，照的片子是个影像，测的遗传密码是字符串。怎么把这些东西加在一块儿，是一个非常非常大的难题。

如果用数学、物理的语言看这个数据，太复杂了，以至于我们很难像数学家、物理学家那样写公式把它表述出来。那怎么办？

人们考虑了这些数据，分析出其实我们面对着一个暗箱。我们测了好多数据，知道这个人可能有哪些不舒服，但原因是什么呢？这个原因好比暗箱，我们要破解这个暗箱。

而这样一套工作或研究方式，实际上和人工智能中一个非常重要的基本模式叫深度学习是一样的。所以人工智能也是我们处理生物医学大数据一个非常合理、可资利用的很好的工具。

大家关心人工智能在各个领域使用，都知道人工智能可以下棋，下得比九段围棋手都好。它还可以做很多其他事，比方说在生物领域里帮助我们预测生物大分子的结构，预测的跟实验做出来的差不多，还可以帮助我们看片子。

但是，会下棋的人工智能不会看片子，不会预测生物大分子的结构。我们现在的要求是什么？它不止能下棋，同时能够帮助我们预测生物大分子结构，帮助我们去看病理的片子。能不能有这样的东西？这就是人们追求的目标。希望人工智能能够完成多种多样的任务，一下子把很多事都集中到一起，统一来分析。

最近大家知道一个非常非常热的话题，就是人工智能进入了大模型时代。也就是说，最近整个人工智能的发展已经从单独做一件事变到可以同时把很多事情放在一起，这样一个人工智能的新发展我们叫做搭建了人工智能“大模型”

什么叫大模型？大模型就是把宽泛的数据、不同数据综合在一起分析。下面我跟大家简单来讨论一下大模型的进展以及它对整个生物医学发展的一些影响。

这是一个神经网络的模型，是我自己大约在将近40年前的工作成果。实际上不管是现在的人工智能还是大模型，基本原理都是模仿人脑。人脑不外乎有很多神经元，很多神经元之间连起来构成一个神经回路，然后做很多事。现在只不过把这个局面做大，把事情做复杂，基本原理还是这样的。

现在的大模型可以把所有事都一起做，而且把它们之间的相互影响也包括在内。这样一种方式、一种技能在人工智能中是非常突破性的进展，因此引起广泛的注意。我想在座各位都试过用大模型来替你写段文字、画个画，很多人都做过。

实际上，大模型的理论基础应当说在几十年前就已经确定了，基本上依赖于两个方面的理论。一个是我刚才讲的所谓的神经网络模型，基本上是由杰弗里·辛顿（Geoffrey Hinton）带领的团队在上世纪80年代最初实现的。另一个是概率统计的抽样方式，是另外一位专家贾里尼克（Fred Jelinek）的团队发现的。这个基本原理应当说早就实现了。

现在让大模型本事变大的一个最大的难点，就是让计算机能够正确地理解、学到、学好语言，也就是大语言模型（LLM）。让计算机识别语言很困难，因为每一个词汇都不是单一性的，语言非常丰富，每一个词可能有多意而且有上下文关系，所以能够把语言变成计算机可识别的一种符号，这是大模型成功的关键。

现在的大模型哪个地方进展了？主要是语言，自然语言，比方所有论文、各种书籍、医学病历现在都可以用这种方式用计算机读懂，使得人工智能模型的能力大大升级。它主要就是解决了语言的问题。

当然这里面还有很多细节问题。比方它还要不断地调节、迭代，让它学得一次比一次好，最后才能形成一个人们适用的系统。

我这列举了最近大模型出现以后中国跟美国之间的比较，也列了中国一些主要的大模型参与单位，比方百度、腾讯、阿里、华为制造了很多很多大模型。大家知道百度的大模型叫“文心一言”，腾讯的大模型叫“混元”，阿里的大模型叫“通义千问”等等。总而言之，每一个大模型由于规模很大，都起了一个专门的名字。
大致看起来中国整个模型的规模和学习的参数应当说是跟美国可比拟的，但是最后的实际效能可能还有待提高。

但我要说的是，大模型实际上是大量消耗能源的，要做一个好的大模型至少要准备几十亿人民币，没有这个的话，是训练（training）不好一个大模型的。

我们知道，前不久一出现大语言大模型以后，马上就转到生物医学领域了，因为大家知道生命医学是跟每个人休戚相关的。比方说微软做ChatGPT的同时，实际上它还做了BioGPT，把这个大模型直接用到生物医学去。谷歌也造了一个用于生物医学的大模型，可以看到整个做大模型的行业对于生物医学的重视。

这些大模型水平怎么样？我举个例子。比方说我们知道美国职业医生的执照考试及格分数是60分，这两个人工智能大模型能考多少分呢？80分以上。也就是说，如果执业医生60分及格，它一考就80分。我想像我这个白丁要考执照，用这个软件保证能够妥妥过关。所以说明现在人工智能实际上在某些生物医学基础领域，它已经学的非常成功。

我们国内也开始启动了用于生物医学的大模型。我自己觉得最受关注、或者说在大模型上花费精力和时间比较多的应当是百度。百度在中国的大模型建立上花了很多精力，特别是它成立一个子公司叫百图生科，是专门为把大模型应用到生物医学而成立的，做了很多基础工作。

除了这个之外，像腾讯、阿里、华为也都有所考虑，但似乎没有形成已经使用的生物医学的大模型。清华也在做，春雨医生、医联也有这种想法，正在做。

《新英格兰医学杂志》是国际上最顶尖的医学学术刊物，它从2024年开始成立专刊，这个专刊的名字就是《人工智能》。大家可以看到，人工智能包括大模型在生物医学应用应当是一个长期的事，而不是一时的事。它有一篇综述，我给大家显示其中一张图。大家可以看到，原则上来讲现在的人工智能实际上是可以应用到医学当中的很多很多方向的。

我们自己也做了些工作。

实际上做了个模型。所有技术也都尝试了，但是我们训练的数据不够。

我们把电子病历、影像学的组学数据都加在一块儿。大家知道，你要让计算机读懂这个病历，比方说这段话，“患者胸闷、憋气、胸痛”。怎么让计算机唯一的而不是二义性地跟他的病关联起来，实际上这不是一件容易的事。但是从技术上来讲我们都实现了，这些我不详细讲。

包括面部的，大家知道有些疾病人面部会有非常典型的特征。比方有先天愚型，他的面部表情是非常典型的，这些都可以输进去。

像染色体核型的图片分析也可以输进去。

我们也把组学数据输进去了。

唯一的一点，我们想做点有特色的工作。我们希望将来能把中医药的大数据输进去，但是中医是很难的，特别是几千年前的《灵枢》《素问》这些东西如何翻译成计算机语言，我们还在学习和探讨过程当中。

我们也构造了一个大模型，起个名字叫“灵枢”。但是我们还是“小弟弟”，还在学习。但不管怎么说，这条技术的路是能走了，但是训练的路、学习的路还没有走完。

我下面主要跟大家讨论一些关于AI的想法。实际上，为什么这波大模型会引起全世界的广泛注意，主要是在大模型出现以后人们发现了一些新现象。

如果模型规模做的足够大，学习的参数足够多的话，可能会出现两个现象。一个现象叫涌现，一个现象叫顿悟。这不是常规计算机程序会出现的现象。

什么叫涌现？我教给你这么多东西，学到一定程度以后你会出现新的想法，而这个想法是我教你的过程当中没有的，这样的现象叫涌现。这使得业内人有深深的担忧，也有深深的思考。涌现什么呢？涌现的当然都是我没有教你的，换句话说是我教你的知识库里没有的，它出来的东西会不会超越人类掌握的知识呢？

顿悟是这样一个现象，大模型它学的东西和人脑一样，一遍没学会，二遍没学会，三遍没学会，第四遍它开窍了，完全学懂了。大家知道计算机不会出现这事，它运行一个程序，给它输入，永远会得到输出。

大模型出现了涌现和顿悟现象，说明它和过去我们用来下棋、用来预测结构的人工智能出现了不同的事，这些事使得现在大模型除了作为一种技术之外，有更多更加深入和广泛探讨的空间。

比方我们知道这两家主要的公司，一家是微软和OpenAI，它们是一起的，另外一个是谷歌，两家彼此互相竞争。大家可以看到，刚刚发布GPT-4之后，在2023年5月14号，谷歌就发布了Claude，这个Claude实际上跟ChatGPT是一样的东西，但是它一分钟的效率已经能读懂大约将近10万字的一本书，也就是说它的能力在短短一段时间里又超过ChatGPT了。这两个东西发展态势太快了，你追我赶。

另外，已经有人尝试用现在的大模型来驱动第三方系统。换句话说，如果这个大模型能够驱动手术机器人，它就可以代替外科医生做手术。这样的发展使得人们在原来只担心智能发展到什么程度的同时，还担心它的发展速度和它能够调动的下游设备，使得大模型格外引起人们的注意。

当前人们争论的焦点就是，这个大模型能不能达到强人工智能？

强人工智能是人工智能领域的一个专业术语，它是说如果人工智能达到人脑的状态，能思维、能思考、能决策，就是强人工智能。当然现在还没达到，它是不是能达到，就成为人们非常重视的一点。

为此很多人有深刻的担忧，我只讲一个典型的人——辛顿（Hinton），大家知道他是所谓人工智能的最早奠基人。他讲了他对人工智能的忧虑，特别有一句话我标在这，他说“人类只是智慧演化过程中的一个过渡阶段”，言外之意就是，他认为人工智能将来有可能超过人的智能。这个问题非常值得考虑，正因为这个担忧，最近他从谷歌辞职了。

另外大家知道像马斯克，还有图灵奖的获得者约书亚·本吉奥（Yoshua Bengio），他们在2023年3月22号发起了一个签名运动。他们希望在6个月之内别发展比现在能力更强的人工神经网络的模型，他们说，我们没有准备好，如果它发展太快了，也许人类就不能很好地把握。

另外，欧盟提出了《人工智能法案》，代表整个欧盟已经提出对人工智能的法律监管方案。

2023年5月13号，美国白宫政府特别成立了一个人工智能的工作组，这个组的两个组长之一是华裔科学家陶哲轩，有名的数学家，李飞飞也是咨询组的成员。这些都说明，当前大模型的发展不仅仅是作为一个科学问题，而是产生了很多科学哲学在内的问题，引起人们对大模型深深的考虑和担忧。

这里也谈一点我自己的看法，人工智能未来当然是会逐渐发展的，任何力量也很难阻止，因为它是一个先进的技术，前沿技术的发展是很难阻挡的。

但是人工智能能力的提高是连续的还是有壁垒的？如果是连续的话，它就会一直不断地发展下去，如果是有壁垒的，换句话说它需要克服某些壁垒才能够达到新的点，我们就可能在某些壁垒上让它暂缓发展。

目前看来，没有理由证明人工智能的发展存在什么样的壁垒，所以它还是非常高速地在发展。

但不管怎么说，我给大家展示一个生理学家的图，这个图展示的是新生儿、3个月幼儿和2岁的儿童之间脑的神经网络的结构。

大家可以看到，新生儿的脑网络跟3个月幼儿差很多，跟真正的、已经变成儿童的2岁孩子差得就更多。在这个过程当中，儿童的能力越来越高，换句话说他的知识越来越高了。而知识的增长是直接跟神经网络的空间结构复杂度有关。

如果说有壁垒的话，我相信，目前人工智能网络结构的复杂度离真正人脑的结构还有相当的差距。换句话说，人工智能会不断地发展，人们担心的新的涌现型行为是可能出现的，但是它要超过人，至少要有一个非常大的时间尺度。

这是一个人的神经网络，大家比较一下结构复杂度。物理学家总问这样一个问题，如果现在的物理规律从三维变到二维会怎么样？相信很多物理规律是不成立的。我们现在比较一下，目前的人工智能模型还不如真正人脑空间结构的复杂度。

我相信人工智能不断地发展，一定会对人生产力的发展、为社会的生产生活、为医学的发展提供很大的助力，我们要注意它可能带来的各种因素。但至少在短期之内，它要达到强人工智能的状况恐怕还有相当的距离。

谢谢大家！