孙赫：从黑洞到细胞

北京大学未来技术学院国家生物医学成像科学中心
演讲全文>>

大家好，我是孙赫，来自北京大学。非常荣幸今天能够来到格致论道讲坛，分享我们用拍照的方式来研究宇宙和生命的故事。

今天的故事就先从这张照片说起，这是位于银河系中心的超大质量黑洞的第一张照片。

我们从地球的角度仰望星空，穿过数以亿计的星系和漫漫的星尘，这个黑洞，就坐落在距离我们2.7万光年的、我们所生存的银河系的正中心。

给黑洞拍照肯定不是一件容易的事，我们是怎么得到这张照片的呢？用来给黑洞拍照的是一个超级相机，叫做“事件视界望远镜”。

事件视界望远镜与其说是一个仪器，更准确地说是由来自全球80多个科研机构的300多名科研人员组成的合作组织。

很荣幸，我作为其中一员参与到了银河系中心黑洞的拍摄工作。这是我们当天线上发布会的截屏。

银河系中心黑洞成像的过程中也有我们中国科学家的工作，有17名来自中国大陆的科学家全程参与其中。

可以想象，给黑洞拍照是一个非常非常复杂的工程。在整个过程中，300多位科研人员是分成一个个的专业工作组来进行工作的。比如说，有的专业小组负责仪器的研制，有的专业小组负责理论和建模，有的专业小组负责现场的观测还有数据收集。我在的小组叫做成像工作组，简单来说，主要负责给黑洞洗照片这项工作。

为什么给黑洞拍照这么难呢？我们为什么不能像拍月亮一样，拿手机去给黑洞拍照呢？

一句话总结就是，地球距离我们想看的银河系中心的黑洞实在是太远了。打个比方，我们在地球观测银河系中心，难度大概就相当于在拉萨的布达拉宫去观察位于上海外滩餐厅桌子上的一粒盐。

如果要实现这样非常高精度的观测，根据公式计算，我们需要造一个有地球大小口径的射电望远镜才能够实现。这当然是不切实际的。

但是，一个有意思且非常有用的想法就是，可以利用计算成像技术，把全球的8台望远镜联合起来，协同拍摄银河系中心的黑洞，就能够达到类似地球大小口径的射电望远镜的成像效果。这就是我们所说的事件视界望远镜的含义。

天文爱好者可能已经知道，在3年前，也已经用类似的技术做出了黑洞成像，它背后主要科学原理就是“射电干涉技术”，更准确地来说叫做“甚长基线干涉技术”（VLBI）。

它的原理是，虽然我们不能用一个小的望远镜来代替大的望远镜的工作机制，但是在射电干涉中，任意两台望远镜之间的连线，就可以获得一组对黑洞的观测数据。这一组数据所包含的信息，和两台望远镜之间连线的投影距离、朝向密切相关。

其实很多时候，这8台望远镜两两连线所拥有的信息也是非常少的。但是一个非常有趣、并且是天助我也的事就是，地球本身是在自转的。随着地球整晚不断自转，每两台望远镜之间连线的投影距离和朝向也会发生些微的变化。

这样，经过一晚的拍摄，就得到了一系列黑洞的观测数据。之后再把这个观测数据交给计算机进行信息处理，就可以最终从数据中提取出一个有关黑洞的图像。

利用类似的方法，3年前事件视界望远镜拍摄出了位于室女座的一个叫做“M87”的黑洞（左图）。这张照片于2019年公布，正是我们人类拍摄到的第一张黑洞的照片。

在2019年的时候，我也正是看到这张照片后，受到了感召，很快加入到了事件视界望远镜工作组，很幸运没有错过银河系中心黑洞的成像。

但是，可能大家并不了解的是，虽然这两张照片一张是2019年发布、一张是2022年发布的，但对它们的观测早在2017年就已经完成了。也就是说，相比于M87黑洞，我们其实多花了3年时间，才最终把这张银河系中心黑洞的照片洗出来。

为什么它比起M87黑洞来说要难这么多呢？背后的一个关键问题，就是概率成像。

从前面可以看到，我们对黑洞的观测数据是非常不完备、非常稀疏的。并且很多时候，我们还会受到非常复杂的影响，比如大气湍流及其他噪音。在这种情况下，其实有一系列照片，都是比较符合我们的观测数据的。

所以，这两张照片并不只是拿那些数据洗出了一张照片，而是拿同样的数据洗出了一系列的照片，然后再把它们平均一下得到的。

但比较麻烦的是，我们面临一个挑战：银河系中心黑洞的质量仅相当于M87黑洞质量的1/1000，所以它的动态变化是非常快的。我们拍照的过程，就像在观察天气剧烈变化下的风景。

在这种情况下，由于银河系中心黑洞有更多组的照片可以满足观测数据。所以，为了遍历或者说探索所有可能的黑洞图像，从而给出更精准的科学解释，我们自然需要花更长的时间来进行研究。很多之前在给M87黑洞拍摄时洗照片的方法已经不适用了。

那传统上，我们是怎么实现这种黑洞的概率成像呢？简单来说就是——猜。

怎么猜？我们有计算机算法，每一次先提一张可能满足观测数据的图片，然后利用观测数据验证。如果这个图片靠谱，就收集起来，放到图像集合里。再提一张照片，如果它不靠谱，就把它扔掉。

重复这个过程，直到找到一系列我们认为能够满足观测数据的图像的集合。然后，我们就得到了一组图片，可以表示图像的概率分布，从而能够精确理解这个图像到底是什么样的。

通过我的叙述，相信大家应该感受到，这个过程是非常慢、计算量非常高的。首先，猜的过程就很麻烦，如果猜完了之后，还要扔掉一系列图片，那这个过程真的是麻烦到难以想象。

因此，加入事件视界望远镜之后，我一直在思考和研究的问题就是，能不能够发明一种新的方法，用更快的速度，把黑洞的整个概率图像都猜出来，同时还比较准确？

在人工智能和深度学习中，我找到了一些灵感。我们用了深度学习中的一个非常特殊的神经网络，叫做“深度生成模型”，来解决这个问题。这个深度生成模型的厉害之处在于，它可以生成任意符合我们人类预期的自然图像。

比如说，这里的两张图，一张图是真实的人脸照片，另外一张图是用深度生成模型生成的人脸照片。我不知道大家能不能看出来哪个是真的，哪个是假的？就我个人来看，我真的觉得非常难区分。

正确答案是，左边这个男生的照片是真的。

它的原理就是，如果得到了深度生成模型，给这个生成模型进行随机初始化，就能够生成一张符合我们人脸要求的图像。利用这样一个神经网络，就能够大致建模所有人脸图像的概率分布。

我和同事就想，是不是能把相同方法应用到黑洞成像中，也去做一个深度生成模型，训练完这个模型就能一下子生成所有满足观测数据的黑洞图像。也就是说，不再像之前那样一张一张去猜，而是利用深度学习把所有的图像一下子都猜出来，我们管这个方法叫做“深度概率成像”。

利用这个方法，我们首先在已经发布的M87黑洞图片上做了验证。大家看到的就是深度概率成像所得到的平均图片和不确定性图片。

那这张是2019年事件视界望远镜发布的用传统方法得到的不确定性的图片。可以看到，我们的方法和传统的方法一样，都找到了黑洞图片下半部分的那三个不确定性程度非常高的区域。

但是，从计算角度来讲，因为利用了深度生成模型，我们的方法只需要一个多小时的训练时间，就可以获得传统算法花费几周甚至更长时间的成像结果。

有了这样的验证，我们就更有底气了。所以深度概率成像算法，作为事件视界望远镜成像工作组的分析算法，参与到了银河系中心黑洞的分析工作中。

可能有人会问，既然我们银河系中心的黑洞是一个动态变化的过程，为什么我们非要拍照片，而不是做视频呢？

其实，在成像工作组内部，还有一个不到十个人组成的动态成像小组，致力于给黑洞做一个视频出来，我也是其中一员。

这个视频就是我们成像工作组利用观测数据得到的银河系中心黑洞的可能的视频重构。但是,一个晚上所有时间点的数据做出来的平均图像都那么模糊，如果每一分钟都要重构一张图片，也就是得到这样一个视频图像，精确度肯定是不够的。

这在视频中就可以看出来。比如我们合作组一直在争论，黑洞到底是在顺时针旋转，还是在逆时针旋转？大家也可以看一下，不知道能不能达成一致的意见。

我们后续利用深度概率成像，对整个黑洞环形结构上最亮部分的角度做了分析。这张图展现了黑洞最亮部分的角度随着时间的变化趋势。图中绿色的部分是深度概率成像结果，非常明确地揭示了在一个时间点，尤其是在它从右上到左下转化的时间点上，它的角度到是非常不确定的，概率分布是非常广的：既可能在右上角，又可以在左下边。所以，我们也没有办法去确定这个视频到底是靠不靠谱的。

但是，深度概率成像算法，为科学家做出科学解释提供了非常重要的依据。虽然我们现在还没有办法解答银河系中心黑洞动态到底是什么样的，但是我相信在不久的将来，随着我们有更好的仪器，更好的分析方法，肯定很快就能看到银河系黑洞本身的动态真容。

通过黑洞的故事，相信大家应该已经体会到了计算成像技术的神奇之处。其实不只是在天文学，在我们日常生活中，计算成像也有着非常重要的应用。

比如磁共振成像（MRI），大家应该都听说过。磁共振成像是一种非常先进的医疗诊断手段，由于它没有辐射、灵敏度非常高，是很多疾病诊断的首选。

但是它也有缺点。磁共振成像的扫描时间是非常长的，所以如果大家去医院预约磁共振，可能要等非常久。也正是这个原因，它的收费是非常昂贵的。

磁共振成像的物理原理，跟黑洞成像其实非常类似。既然可以用非常稀疏的数据重构出黑洞的图像甚至视频，那么自然也可以利用比较稀疏的、快速的扫描，来对人体进行磁共振成像。

这是我们利用深度学习，对磁共振成像进行加速扫描的模拟结果。这里模拟了磁共振对人体膝盖的观测，但是我们只用了相当于传统扫描的大概1/4的时间。中间这张图是我们得出的结果，利用深度学习算法，至少在模拟中打败了当前最优的算法。

虽然用的时间更少了，我们仍然可以得到诊断所需要的观测结果和人体结构知识。利用这种计算成像方法，我相信在不久的将来，磁共振就会变得非常便宜，而且也没有那么耗时，可以作为更普适的医疗技术被更多人应用。

当然也不仅仅是核磁共振，在整个生物医学成像中，计算成像都有非常重要的应用。

我们的人体是一个非常非常复杂的系统，小到分子细胞，大到人体，从纳米、微米、到米，是跨越了九个尺度的非常复杂的系统。要观测这样一个系统，就要从多个尺度对人体进行成像。

比如说，要了解记忆产生的机制，肯定需要在人体尺度用医疗成像仪器对脑结构进行成像。

同时，还需要利用显微镜，在微观尺度对神经元进行成像。

在更小的尺度——分子尺度，我们还需要利用电子显微镜技术，去了解整个生命过程背后的物理物质基础，去观测决定生命性状的蛋白质。

从磁共振、到显微镜、再到冷冻电镜，这里每一种成像方式，都需要计算成像来辅助，让它们变得更加清晰、准确。

我们要实现生命的全尺度观测，自然是需要各种成像方法的协同，一起来揭示整个生命的奥秘。我现在的工作单位——北京大学国家生物医学成像科学中心，就是要完成这个事。

我们要给生命拍照的超级相机，叫做“多模态跨尺度生物医学成像设施”。它坐落在北京的怀柔科学城，集合了接近100位成像领域的专家。他们分别从人体医学成像尺度、细胞的尺度、还有分子的尺度，去研发先进的成像设备，从而实现对人体全尺度的生命现象的观测。

这个大设施尤其独具匠心的设计在于，除了刚才提到的医学成像设施、细胞成像设施、分子成像设施，还有一个专门设置的全尺度的数据处理中心。我们希望在这里利用计算技术，不仅对生物医学的成像方式进行图像增强，同时还能够利用深度学习信号处理等先进的计算技术，对不同尺度的生命现象进行融合，从而实现单一成像方法所不能看到的生命全景观测。

我们常说眼见为实，成像技术很多时候就可以被看作科学家的“眼睛”。计算成像技术的不断发展，让科学家们的眼睛更加敏锐。从宏大的宇宙到人体中微小的细胞，都蕴含着各种各样的奥妙。我非常荣幸能够参与到这样一些相关的科研工作中。

希望今天通过我的讲述，大家也能够理解计算成像技术的神奇之处。我也会不断努力开发新的、更好的计算成像技术，不断突破极限，来用计算成像技术拍摄到更多极端尺度下的神奇世界。

谢谢大家！