当图像放大到网络模式时,希恩斯看到了无数神经信号沿着纤细的突触忙碌地传递着,像错综管网里流淌着的闪光珍珠……
“这是谁的大脑?”希恩斯在惊叹中问道。
“我的。”山杉惠子含情脉脉地看着丈夫,“出现这幅思维图景时,我正在想你。”
——《三体II:黑暗森林》
前几天,蚂蚁技术研究院和复旦大学脑科学研究院宣布他们联合攻坚的类脑研究——“基于图计算的脑仿真架构”校企合作项目正式启动,目标是打造新一代大规模高精度脑仿真系统,而我们离这一科幻场景和大刘“理工科的浪漫”又近了一步。
带着加深对生物智能的理解,以及为脑疾病治疗提供新的研究手段的目的,这个项目集结了图计算和实验神经科学等尖端学科,是一件极富想象力却也挑战重重的事情,就像是试图用一个非常复杂的东西来解释另一个非常复杂的东西,为什么要这么做呢?蚂蚁技术研究院院长陈文光认为,“两者之间的逻辑关系是互为手段,互为目的”,而这句话仿佛一个注脚,以比“人工”智能、“电”脑等名词更直接的方式,诠释了计算机科学与神经科学之间跨越几十年、千丝万缕的互生关系。
认识你自己
时至今日,刻在希腊德尔斐神庙门楣上的这句箴言,不论从哲学上还是生理上都接近一个不可能解决的问题。
自从现代人体解剖学之父安德烈亚斯·维萨里斯在16世纪首次将手术刀伸向人体,人类开启了向内探索之路。多年来我们了解了器官、组织,理解了消化系统、循环系统甚至外围神经系统,却始终对大脑——这一宇宙间最复杂的物体知之甚少,而它才是认识自我、理解意识和智能的关键。人类大脑重约1.4kg,仅占体重的2~3%,却包含了860亿神经元、比神经元高四个数量级以上的突触,仅已知能够呈现出的状态就有2000万亿种,而“作为我们与物理世界交互的真正工具,其能耗才不到30W,且一生之中没有任何备件可供更换”,领衔项目的复旦大学脑科学研究院高级PI、博士生导师王云讲述道。
图丨复旦大学脑科学研究院高级PI、博士生导师王云
为了解决这个问题,“从有计算机开始,搞计算机的人就思考着、尝试着用它做大脑仿真,弄明白大脑”。事实上,计算机科学与神经科学催生的计算神经科学由来已久,最早的神经系统仿真可以追溯到上世纪50年代。1952年纯物理的霍奇金-赫胥黎模型(HHModel)被发表,而没过多久,到1965~1975年人工智能促进协会(AAAI)的科学家们建立的人工神经元网络(ANN),再到1985~1995年间日本生物计算机发展的十年,计算机科学在不断进步;另一方面,上世纪70年代膜片钳技术的发明,使得记录单个离子通道的电流成为了可能,为神经元电生理模型的建立打下了基础,发明者厄文·内尔和伯特·萨克曼也因此获得1991年的诺贝尔生理学或医学奖。
千禧年之后,深度学习的出现使得计算机、人工智能技术飞速发展,最初受到生物神经网络启发而建立的人工神经网络深度愈发加大,各种模型相继出现,终于催生了基于注意力机制的Transformer和我们现在所熟知的GPT-4,GoogleBard,Claude等大型语言模型(LLM)。然而,其庞大的数据量、神经网络的深度和亿万级别的参数量,使得开发它们的科学家也无法解释乃至预测这些大模型的行为。当下,人工智能三巨头之一的YannLeCun认为大模型并非通往通用人工智能的正途,而另一巨头GeoffreyHinton则相信它们的学习方式强于人类,双方各执一词、争论不下,不过一个明显的事实是,大模型的工作方式已与人类智能相去甚远。讽刺的是,我们”仿生“多年创造出来的AI成为了另一个无法理解、不可解释的“黑盒”,神秘、强大,却无法帮助我们更好地理解人类大脑了。
凡我不能创造的,我就尚未理解
不过,一切努力并没有白费。得益于神经科学技术和计算机技术的长足进步,人类仍在寻求新的方法研究大脑这一世界性的难题。随着算力的不断提升和多通道膜片钳技术的出现,世界各国相继出台自己的“脑计划”,包括2013年启动的美国“脑科学计划”(BRAINInitiative),同年启动的欧洲“人脑计划”(HBP)等,不过两者的思路并不相同。BRAIN致力于绘制最完整的人脑细胞图谱,侧重于生物实验的测量和记录;HBP则试图在十年内用超级计算机模拟人脑的全部神经元和它们之间的一百万亿个连接,更偏向于计算模型的建立,这一宏伟的计划也因其“野心过大”而遭到许多业界专家的非议。而2021年正式启动的“中国脑计划”则介于两者之间,“一体两翼”,既做脑科学基础理论研究,也做类脑研究,也就是计算神经科学的一部分。
虽然有着各种各样的局限性,但所有这些前沿科研的工作以及计算机科学的发展无疑为更先进的图计算脑仿真方法带来了宝贵的积累。神经科学的进步与各国脑计划的进展,提供了丰富度前所未有的大脑数据集,是一切研究的源头;算力的指数级提升和模型算法的不断优化,给了大脑数字孪生一个实现的可能性;显微技术的发展使得我们的观察精度达到了10的-10次方,能看见原子,从而更好地理解神经电信号的传导和处理;同时脑疾病的蔓延和对个性化医疗需求的增长,也在客观上驱动了创新研究方法的发展。“历史是螺旋上升的,而现在时候到了。”复旦大学脑科学研究院工程师王小斐这样说道。
那么,为什么是图计算呢?要回答这个问题,我们首先需要了解一下什么是图计算。
图丨社交关系网络就是典型的图数据
听起来是不是很像我们大脑的神经网络?没错,图计算的模式与神经元、脑仿真有着天然的相似性,前者更像是后者的一种自然抽象。相对于和生物神经网络分道扬镳的大模型深度神经网络,图数据中顶点之间的连接更为“稀疏”,与主流深度神经网络中每一层神经元全部彼此相连的“稠密”连接截然不同,更接近于大脑的神经网络;同时,图计算的特性也决定了其参数和途径的透明和可解释性,从“黑盒”变成“白盒”;而最重要的是,图数据中边的建立和神经元突触生长的逻辑极为相似,为脑仿真模型带来了前所未有的动态性,也让我们离破解这一电生理现象之谜更近了一步。
图丨建构大脑
拼出一个大脑
当然,要实现这样宏伟的目标,挑战是非常大的。据朱晓伟介绍,图计算往往面临着数据规模极大、幂律度数分布导致的负载均衡问题。不过,蚂蚁在这方面有着非常深的技术积累,其TuGraph图数据库多次登顶行业权威测评LDBC榜首,是当前世界纪录保持者;更直观地说,我们日常使用的支付宝其实就在底层使用了蚂蚁的图计算技术,能够在庞大的用户基数和数据规模上,实现精准的金融风控、黑灰产识别等等。
然而,更大的挑战还不在此。让顶尖的复旦大学脑科学研究院与实力雄厚的蚂蚁技术研究院聚在一起,真正的挑战在于两拨人的“语言都不一样”,陈文光如此说道,“(脑科学和计算机科学)两个领域连术语同步都很难。”
图丨蚂蚁技术研究院院长陈文光
也正是因为实验科学与计算机科学这个巨大的差异,双方的合作更显得至关重要,而促成这次宝贵合作的正是有着计算机和神经科学跨界背景的王小斐。“这件事情的缘起是小斐有一天在清华门口约我喝咖啡,拿着一份脑科学的论文找我谈图计算”,陈文光笑笑说,而这杯咖啡,王小斐等了二十年。2003年,还是清华计算机系研究生的王小斐有一天去上了神经生物学的课,非生物科班出身的他交出了一份关于如何将CPU和人脑连接在一起的论文,而当时的导师谢佐平教授给他的评价是,“计算机系每隔十年,就会来一个你这样的”,王小斐回忆道。这不仅是他个人理想主义的一种坚持,也是自上世纪50年代以来无数科学家的向往,“我们还可以再试试”,王小斐这么说着,“拼”起了这个团队。
两个不同团队的碰撞与合作,带来的自然是两个学科研究范式的交叉与融合。与欧美脑计划都不同,蚂蚁与复旦的合作采用的是“干湿实验结合的研发方法”,一边基于图计算去构建动态、实时、高精度的脑仿真模型,搭建硅基空间的虚拟实验平台;一边基于实验神经科学,在碳基空间中对大脑真实数据进行测量和验证。“希望我们两个团队能够密切地结合在一起,得到的实验数据可以输入给图计算团队,帮助构建这个神经计算系统;而系统模拟得出的数据,又可以回到脑科学团队,在实验中得到验证”,王云如此说道。