计算机被发明出来的时候,早期是全英文环境,并未考虑到使用表意文字的群体。计算机上能实现汉字的输入、显示和输出是一批科学家努力的结果。但这只攻克了第一个难题。人类希望计算机可以帮助自己做事,比如说通过搜索引擎搜到信息或者做翻译。同时,最好可以用人类语言就能发出计算机理解的指令。计算机理解汉语,还有重重困难。第一重困难是对词的处理。拼音文字的词与词之间有空格,汉字是一个个字排成列。把一列汉字分成词,不同分法有不同含义。第二重困难是对句子的处理。汉语语法很灵活,拼音文字已经成熟的处理人类语言的办法不能照搬。
在深度学习和大模型技术出现之前,中国的科学家和计算机专家们奔着“如何让计算机理解汉语”这个目标,努力了几十年。现在,大模型技术用上千亿参数对语言建立复杂的模型,汉语,甚至语言之间的差异都不再是问题。
孙茂松是清华大学计算机系长聘教授,人工智能研究院常务副院长。早在2016年,他就带着学生开始做一个叫“九歌”的人工智能作诗系统。几经技术迭代。我们采访当中,孙茂松教授以“探索天空”为题目,让ChatGPT-4和“九歌”分别做一首五言律诗。
ChatGPT-4的作品是:
探索天空乘翱翔,星辰闪耀迎征程。云端自由逐风起,尘世束缚化尘埃。
飞鸟羡慕我轻盈,流云陪伴我飘扬。高山脉络尽收眼,无限宇宙尽浩瀚。
九歌的作品是:
探索天空处,人间不可居。一身犹是客,万里欲何如。日月双轮转,乾坤一局虚。此心无所住,随处是吾庐。
一问通天理,穷幽兴不孤。自怜多远梦,空复负良图。浪说三山近,无因一苇趋。神仙吾未学,难与问真符。
五言律诗是我们文化里有代表性的文学体裁。它要求每句五个音节,两句一组,总句数是偶数。孙茂松说:“ChatGPT-4没有专门拿古诗作训练,它写出来的诗读起来挺不错,意思写得也挺好,但不符合五律。它已经七个字了,也不押韵。我们的模型是用古诗训练过的,它的押韵、平仄都是对的。而且,它的内容有现代人的意思。比如,它把探索天空这个主题给嵌进来,古人一般是不说‘探索’这个词的。”
以孙茂松作为学术带头人的清华大学计算机系自然语言处理与社会人文计算实验室,是国内最早开展自然语言处理研究的科研单位。所谓自然语言处理,就是让计算机能够理解、处理、生成和模拟人类的语言。在最近一年多兴起的大模型创业热里,社交媒体上津津乐道国内有实力的科研师承或者团队,孙茂松和他的同事、学生们经常出现在各种盘点名单的前列。
ChatGPT是人工智能公司OpenAI的自然语言生成模型的产品。它在2022年11月正式上线,就备受瞩目。在中国,跟进这项技术的公司从互联网巨头到初创企业,可以列出一个很长的名单,被称为“百模大战”。一直深耕AI技术的百度公司,创始人、董事长兼首席执行官李彦宏在去年一次演讲里说:“这是自iPhone之后,信息科技领域最大一次突破和创新。”他认为,大模型技术改变了人工智能,也会给社会带来科技和经济上的变革。
网友虽然没有科学家和企业家那么多专业知识,但也特别关心大模型技术的发展,特别是它能不能理解中文。大家乐此不疲地给大语言模型出“中文十级测试”。比如,有人考大模型:“我多亏跑了两步,差点没上上上上海的车。请问我是赶上车了还是没赶上车?”还有比如说:“冬天:能穿多少穿多少。夏天:能穿多少穿多少。这两句话的区别是什么。”短视频里有特别多类似的测评。
中国寻求现代化的道路上,这些差异甚至让文化先驱们一度怀疑,延续两千多年的汉字和我们的母语,还应不应该存在。一百多年前,“汉字革命、改用拼音”,曾经引起过很多人的共鸣。以后,每当站在科技鸿沟面前,总有人担心和自我审视,汉字和汉语适配未来吗?现在每天有十几亿人,用汉字或者汉语把他们的想法输入进智能手机和电脑,再传播开来,是因为有一批人带领汉字和汉语跨越了技术障碍。
汉语对计算机来讲,真的很难。这是我采访自然语言处理科学家时,发现他们无意识就会透露出的意思。现在,大模型技术出现了。计算机能够流畅地理解英语,与人自如地进行多轮对话,甚至进行各种文学体裁的创作。前尘往事之下,我们本能就会关心,它对汉语的理解力是怎么样的?中国公司的大语言模型和美国公司开发的大语言模型谁更懂汉语?在大语言模型技术面前,我们有哪些障碍和难题。
冯志伟即将迎来85岁的生日,他依旧还在享受工作乐趣。我们采访的前一天,他特地坐高铁从出差地赶回北京。他是中国最早从事计算语言、机器翻译的科学家之一,获得过中国计算机学会颁发的自然语言处理与中文计算(NLPCC)杰出成就奖。
人类最早产生让计算机理解人类语言的念头,就是在机器翻译领域。1954年,美国乔治敦大学用IBM-701计算机进行了世界上第一次机器翻译实验,用计算机将60个简单的俄语句子翻译成英语。它向世人展示了用计算机进行翻译的可能性。这个实验被当时的英文报纸报道,其中一份越过大洋收藏在北京大学图书馆里。
用数学方法研究语言和机器翻译,引起了冯志伟极大的好奇心。同时,他在专业上遇到了麻烦。“我学的是地球化学专业。在做光谱分析实验的时候,我能用数学算出稀有元素的谱线位置,但看不到。因为我有轻微色弱。老师说我未来是无法从事地质一线工作的,但可以留在大学教书。我考这个专业是受到一位苏联科学家故事的鼓舞,希望能够像他一样找到稀有金属矿藏,报效国家。地质一线的工作做不了了,我想不如将来干机器翻译吧。”
当时,计算机在中国非常罕见,也没有用来打汉字,更不用说还要翻译成外文。北京大学的文件都是用中文打字机打出来的。冯志伟说:“北大有专门的打字室,有超过100个专业打字员。打字机上常用键盘上有2000个字,补充键盘上有1500个字,我去试打过,找字很慢。”他想学机器翻译,但难住了教务长。“老师听我讲机器翻译,觉得很奇怪。我又把乔姆斯基用数学方法来做语言分析讲给他。北大终究是北大,领导很开明。他说我们没有机器翻译这个专业。你想学的这个可能跟中文有些关系,你转到中文系去吧。他判断我这个想法属于语言学,这一点他是对的。”冯志伟说。
北大中文系群星荟萃。冯志伟的老师有王力、朱德熙、岑麒祥、周有光等语言学家。他们教给冯志伟古今中外的语言学知识,但大师们都是文科教授,关于如何用数学方法研究语言,依旧没办法帮到他。直到吕叔湘从中科院语言所到北大来讲课,冯志伟把机器翻译的想法又讲了一遍。“他知道机器翻译,因为他单位的刘涌泉正在从事机器翻译的研究。吕叔湘先生就介绍我们认识了。”冯志伟说。
机器翻译当时在全球都算前沿科技。1956年,机器翻译被列入了我国科学发展规划,课题名为“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”。我国是在美国、苏联、英国之后,第四个研究机器翻译的国家。1958年,刘涌泉和中科院语言所的同事们组成了机器翻译研究组,进行俄汉翻译系统的研究。受限于当时的电子技术,这项研究要将俄文材料代码化,翻译出来的译文也是代码。
编码需要用到美国科学家香农的信息论和编码定理。根据这些理论,“熵”用来表示语言符号中所包含的信息量的大小。在编码时,码字的平均长度不能小于字符的熵。“香农算出英语字母的熵是4.03比特,也就是说每当我们读到一个英语字母就获得了4.03比特的信息,一个比特相当于二进制代码中的一位。给英语字母编码,码字的长度是一个字节,也就是8个二进制代码,相当于8比特。英语字母的熵小于8比特,因此可以使用单字节编码。”冯志伟说。汉字是否也用单字节编码呢?他当时查阅了很多信息,连汉字的熵都还没人算过。
冯志伟开始计算汉字的熵。根据香农的办法,他要统计出汉字在文本中出现的频率。“香农只需要统计26个字母的概率。汉字有6万多个字符,计算汉字熵的工作量远超过香农。我又做了一些数学研究,证明如果统计12376个字,就能计算出汉字的熵。”冯志伟说。他发动身边10个爱读书的朋友,基本也都是中学老师,每读一页书就把所有字出现频率画“正”字统计出来。“我们组成了一个团队,大家都很认真,当时也没事情做。从1971年一直干到1973年,我们手上的几本书都看完了,字头达不到1万多字,又看了《天工开物》《本草纲目》等等。到了计算的时候,我岳父是在单位专门打算盘的,所以他也来帮忙。我最后算出汉字熵是9.65比特。”冯志伟说。
这个数字代表着我们每读一个汉字所获得的信息量。冯志伟说:“根据香农的编码定理,如果汉字码字的长度不能小于9.65比特,它就不能采用英文字母那样的单字节编码,而是要采用双字节编码。我属于先知先觉的人,感觉将来中国一定会要面对汉字编码这个问题。我是个小人物,当时的政治环境里也没有什么地方可以刊登。我曾经写过一个材料交给云南省科委,没有得到回应。这篇计算汉字熵的论文,是1984年,我从法国学习回来之后,身份变了,才发表的。”冯志伟说。
冯志伟蹉跎的岁月里,计算机理解人类语言的研究其实也停滞了。1964年,美国科学院成立了一个“自动语言处理咨询委员会”调查机器翻译的情况。结论是认为机器翻译研究遇到了难以克服的“语义障碍”,机器翻译的质量在短期内不会有很大提高。受这个报告的影响,全球机器翻译研究陷入萧条。
冯志伟的预感是对的。从1978年到80年代,为了让汉字在计算机里显示出来,汉字编码是一个基础工作。国家部委、研究机构和编码研究者通过不同途径研究编码方案。汉字编码一度掀起研究高潮。冯志伟当初通过手工计算得出的“双字节编码”,为汉字编码提供了语言学根据。
汉字的输入则是一个持续优化的过程。中国人口基数庞大,人们受教育水平和使用习惯不一样,输入汉字的需求就不一样。孙茂松说:“打字输入有拼音的办法,有根据字型的办法。周有光先生在汉语拼音制定和推广上做出了杰出贡献。懂汉语的人就会用拼音,所以用拼音把汉字往计算机里输入,老百姓基本都会。周有光先生虽然不是直接对计算机行业做出贡献,但他的这个贡献可能跟拼音制定相比,一点都不小。根据字型往计算机里送,有一个很有名的五笔字型。它当时发明出来的时候,很轰动。五笔字型打字比拼音快,但它要学一下,专业人士会去用。”
汉字和汉语突破了全英文环境,中国才有了个人计算机、手机、智能手机的普及。如80年代的科学家和研究者们所愿,中国进入了信息社会。后面是我们熟悉的故事:在信息化工具普及程度之上,是庞大的电子信息产业、有全球影响力的互联网公司,5G网络基础设施、大数据、云计算等技术。大模型技术,是要在信息技术肥沃的土壤里才能长出来的。它需要庞大的资金、数据资源、人才密度。它作为一种技术创新,也需要搜索引擎、机器翻译、各种智能硬件的应用场景,才能形成正向的循环,推动新的投入。
攻克汉字处理的难题,只是过了第一道关。对计算机来讲汉语难题还有:第二道关对词的处理、第三道关对句子的处理。汉语词和语法的特殊性,让我们没法照搬英文的自然语言处理技术。如果从50年代,国家把机器翻译列入科学规划算起,为了让计算机理解汉语,中国的自然语言处理专家们研究了几十年。
汉语即便从表意文字变成汉语拼音,对外人来讲,其实都很难理解它的形式。冯志伟在2011年曾经接到过一个任务,推动汉语拼音国际标准的修订。冯志伟说:“因为计算机和手机的普及,中国人已经习惯了连词输入,比如北京,是一个词,不再是‘北’字和‘京’字。教育部希望把某些专有名连成词。”推动这件事很费劲。
英语、法语、德语等拼音语言都是以词为单位,词与词之间有空格。汉语是以字为单位,不懂汉语的人眼里,它们是一长串符号。冯志伟说:“比如美国的图书馆里,他们给中文书编目录,作者名、国家名、出版社名等都是一个字一个拼音单独标出来。从前就有外国人问我,《红楼梦》是一个词还是分开的,《三国演义》是一个词还是三国是一个词,演义是一个词?分词的问题,中国语言学界都一直有争论,扯不清楚,更不用说外国人了。”冯志伟后来辗转柏林、巴黎、华盛顿、北京,才说服国际工作组同意修改。人名、地名、机构名、民族名和语言名的汉语拼音不能一个字一个拼音地单列,必须连成词。
计算机处理自然语言的时候,是以词语为识别单位的。它处理的每一句话,都要面对前面所讲的分词难题。孙茂松说:“长江,我们都知道是一个专有名词,而不是一条长的江。但如果是南京市长江大桥,分词不同,意思就不一样了。它可以是南京市/长江大桥。它也可以是南京市长/江大桥。”汉语跟英语相比,形式灵活,分词就不如英语容易。孙茂松说:“我是一个上海人,英文可以说‘IamaShanghainese’。am,就是一个形式标志。汉语里说,我上海人,把am给去掉了,我们中国人都能理解,但是计算机很难理解。”
汉语语法也有特殊性,不能直接用国外的理论。冯志伟在1978年底被派去法国,跟随数学家、计算机专家沃古瓦学习自然语言处理。他原本打算用乔姆斯基的理论来分析汉语句子,但发现寸步难行。“我告诉沃古瓦教授,汉语里讲‘面包吃了’,意思其实是‘面包被吃了’,但是汉语里一般不用‘被’;汉语里还可以说‘约翰吃了’,实际上是‘约翰把面包吃了’。如果我使用乔姆斯基的理论,用计算机去分析这两个不同的句子,得出的是一样的树形图。”冯志伟说。法国的计算机专家听完也头疼。冯志伟说:“他听完很惊讶,怎么会有语言能够不分主动和被动呢?”冯志伟只能根据汉语的特点,在乔姆斯基的基础上进行改进。他后来提出了一种新模型,才把108句汉语通过计算机翻译成法语、英语、日语、德语、俄语等,完成了研究实验。这是世界上第一个把汉语翻译成多语种外语的机器翻译系统。
孙茂松毕业之后,早期就是研究汉语分词这个基础性难题。在《中文信息处理发展简史》关于分词的章节里,孙茂松的论文内容时常被引用。他提出过若干重要的概念,并且对一些难题给出过有效的处理策略。
聚沙成塔。孙茂松在这些研究基础上,研制出一个集合自动分词、词性标注、专名识别和新词识别等分词任务为一体的汉语分析软件CSegTag。这个软件应用在清华和欧盟近10个国家合作的欧盟第六框架计划(FP6)项目“超对等语义搜索引擎”中。“这个东西,我前前后后做了10年左右。当然,这中间还有其他的工作,不是只做这一件事儿。但是,这件事要做好,其实非常不容易。比如要解决‘南京市长江大桥’的分词,就要想很多办法。这是一个人工智能的工作。”孙茂松说。2020年,孙茂松当选为欧洲科学院外籍院士。2022年,他入选了国际计算语言协会ACLFellow名单。每一次入选的理由,都会提到他为汉语的自然语言处理做出重大贡献,并为中国计算语言学的发展提供持续服务。
除了孙茂松,中国很多主要的大学和研究机构都有专家研究汉语的分词、句子结构和语义等,但在当时的技术条件下,计算机始终无法百分之百理解汉语。“汉语太复杂了”成了孙茂松回忆过去的口头禅。
到底有多复杂?说回自动分词。理论上已经有了解决的办法,建一个语料库,里面都是已经切分好的语料。这些语料拿去给计算机,基于统计的办法去学习,再遇到新的句子,计算机就会处理了。中国建了很多语料库。从外行的角度想,如果语料库足够大、足够广,比如把分散的语料库集中起来,不就可以提升准确度?孙茂松说:“没那么简单,分词没有统一标准。比如我坐船,坐船是切开,还是坐船是一个词,不同的人语感不一样。汉语导致大家的语感相当不一致,所以,语料库只能达到尽量自洽,也就是说我的语料库的标准不一定是最好的,但要有一套准则让切词尽量一致。否则,比如我家旁边有一座小桥;河边有小桥。‘小桥’一会儿切开,一会儿合在一起,机器就傻了。”
百度公司虽然是中国互联网的头部企业,但在“风口”跌宕起伏的那个时期里,它总也不在浪尖上。2023年3月推出的文心一言,让百度重新站在聚光灯的中央。我到百度采访的时候,正是“文心一言”上线一周年的前几天。为了让公众了解文心一言的技术原理,吴甜百忙之中刚在中国科协的一档栏目里进行了科普演讲。
文心一言的视频号也推送系列短片教给公众如何使用它。公众对新技术的接受程度超乎了百度团队的想象。从视频号演示的内容里看,人们用它答疑解惑,这跟对搜索引擎的需求很相近。人们把它当作私人助理,帮助处理人际关系难题,比如说表白或者参加葬礼的时候,讲什么样的话是合适的。人们甚至还跟它聊天,都市生活日趋原子化,总有一些不可与人言、不便与人言的时刻,人们从机器人这里寻求慰藉。
这些带有文化背景的“语言艺术”,已经跨越了自动分词、句法分析、语义分析等自然语言处理领域一直在解决的汉语难题。它是一条“说来话长”的计算机技术演进之路。冯志伟在80年代做的那种自然语言处理研究,是把汉语的结构分析出来,再转换成英语的结构。孙茂松说:“这条路虽然一直有进步,但语言太难了。一旦它进入到开放文本,人们说话是千变万化的,不仅是汉语,英语也存在类似的问题,所以这种办法就不太行。”冯志伟在法国把汉语翻译成多种外语后,又去德国做了把多种外语翻译成汉语的研究。但是,这些翻译的样本都很小。冯志伟说:“这种研究方法的准确率是60%,无法投入实际应用。我后来就转移了研究范式。”
上世纪90年代到2012年之前,专家们做的都是统计模型研究。孙茂松说:“这种方法不再去写规则,而是用统计的方法,让计算机从大量数据中寻找概率最大、最合适的结果。它性能就比从前好了一些,比较有代表性的产出就是谷歌翻译。”孙茂松和同行们研究自动分词,建语料库都是这个技术范式内的工作。它还是无法完全跨域分词、歧义等汉语难题。
吴甜一边想一边说,尽量用直白的语言解释什么是深度学习。她说:“人脑中的神经元连在一起,形成了神经元网络。我们看图片、读书等信息输入时,神经元不断去强化,使得神经元网络能够记忆、还能进行计算、推理或者联想。人工神经网络是研究人员受到人脑神经网络工作机理的启发而设计的。对于大模型来说,当机器学习了海量文字,它不仅学会了语言中的单词、句子、上下文信息,它还能学习到语言中承载的模式、逻辑等等。”
预训练大模型技术的出现,让计算机理解人类语言的能力又一次提升。2018年,谷歌公司提出预训练语言模型BERT。同一年,OpenAI提出了生成式预训练模型GPT。2019年3月,百度推出了预训练大模型ERNIE(文心)。它可以看作深度学习的进阶。吴甜说:“深度学习技术,我要先给它一个具体的任务,我现在不急着给计算机任务了。打个比方,我先给它很多‘书’去读,这本‘书’上我也不去标注阅读哪一段话,或者应该读出什么样的主题。我们说一个人读书破万卷的话,他学识渊博,博采众长。其实是因为读书的过程中,通过对语言的理解、分析和记忆等,把语言所承载的知识学到了自己的脑子里。计算机去读这些书,也是类似的道理,而且毫不夸张地讲,文心一言读书破万亿。计算机记了非常多的东西之后,它的建模能力非常强,对世界知识进行了压缩,形成一个模型。当我们使用的时候,用相应算法去进行解码,知识就能运用起来了。”
通过这种无标注海量数据的学习,大模型学会了跟人类似的理解、生成、逻辑和记忆等能力,拥有了“智能”的基础。吴甜说:“这种基础模型的通识能力非常强,但使用的时候,我们还要进行精调,要不然它不知道这个任务最后输出什么样的结果是更符合预期的。我们用少量精标的、高质量数据调教它,就是现在常说的对齐。对齐之后,模型就可以使用了。”大模型非常聪明。吴甜说:“现在很多人都在聊‘涌现’,就是模型会生成在输入数据里没有的、出乎意料的内容,就像它有了自己的想法一样。其实因为它压缩了太多数据,任何一个人脑子里的知识都没有它丰富和全面。这时候,它产生的一些东西,我们作为人类,就觉得它涌现出来了。”
自然语言处理领域很多研究方向,现在都不是问题了。孙茂松说:“你可以理解成,这个模型的框架基本上是确定的,大家都拿积木块去搭这个模型。积木块里有很多参数,参数都是机器自动学的。现在做机器翻译,我们可以设计一个大模型,放世界上多种语言在里面。我们甚至可以完全不懂这些语言,只需要找一个懂这门语言的人把翻译的句段告诉模型。ABCD也好,你我他也好,日语的平假名片假名也好,所有这些语言在系统里找到自己的位置,它们进行互译。”
汉语具有的特殊性,大模型技术已经不需要特别去处理它。孙茂松说:“多种语言在大模型里打通之后,可能出现一种效果。英文语料对中文的理解也有帮助。英语语言学有一种说法,语义世界基本是稳定的。汉语的语义世界和英语的语义世界有差异,但总体上差不多,因为我们接触的事件差不多。比如我们吃苹果、梨、桃子,吃饭、睡觉等有文化差异,但差异不是主流。所以,比如说大模型用英语把这些概念在一个计算空间里各就各位之后,再用少量的中英语料,就可以把中文世界和英文世界进行某种对齐。英文语义就可能来帮助处理中文。我们老祖宗有句话叫大象无形。这是大模型技术比较深刻的原因,它把很多东西打通了。OpenAI公司的人可能都不懂中文,但他们把中文做得很好。”
2022年11月,OpenAI推出了基于大模型技术的聊天机器人ChatGPT。它可以跟人进行多轮对话,写论文、写小说、写代码、参加考试等等。它聪明得让全球震惊。2023年3月,百度上线了基于文心大模型技术的生成式大语言模型文心一言。阿里上线了通义千问,商汤科技上线了商量,讯飞上线了讯飞星火等等。数个月之内,中国科技公司上演了“百模大战”。
因为聊天机器人,大模型技术破了圈。对于在中国使用的聊天机器人,汉语本身已经不是障碍,但要处理语言背后的文化差异。吴甜纠正我,说文心一言是中文大语言模型不够准确。这种大语言模型,它天生就有多语言能力。因为在预训练的时候,我们不仅仅让它学习中文语料,其他语料也学习了。当然,它为了面向公众服务,必须符合中国的文化和价值观。所以,文心一言中文语料的训练量比ChatGPT要大得多。我举个文化差异的例子。2022年我们发布文生图大模型的时候,有网友拿它跟国外的大模型比。比如佛跳墙,国外的大模型画出来就是一堵墙,然后有个佛像在跳。它可以理解汉字,但理解不了汉字背后文化的东西。
为了让普通人理解大模型,吴甜喜欢用人的成长来做比喻。她说:“我们要教一个孩子的时候,一个好办法就是让他自己看书。我们告诉他要看哪些书,不要看哪些书。当他看到足够多的时候,老师去给他做‘对齐’。对齐的意思是老师告诉他要这样做,还是那样做。他自己再去练习,再去考试。这个过程中,他一直在做强化学习。现在关心AI的人都知道‘提示词’。提示词可以理解为老师问他问题。会问问题很关键,问得好,孩子也答得好。这个孩子我们教育得很好,能力也很强,下一步他要走进社会。他在工作中要应对各种任务的磨炼,要跟客户、领导沟通交流。学习能力强的人往往在反馈的过程里提高得非常迅速。在百度,我们这个过程叫‘数据飞轮’,就是大模型在磨炼反馈中再学习,这就形成了正循环。”同样道理,一个在国际背景里长大的大模型,它虽然懂中文,但如果在中国工作,还需要本地化。
冯志伟那一代人,迫切希望拥抱现代科技,最好能跟发达国家交流,最好能用计算机提高翻译速度。冯志伟说:“鸦片战争之后,中国处于被动挨打的地位。爱国志士想到其中一个重要原因就是,中国90%以上是文盲。文盲这么多,要建设一个现代国家是不可能的。汉字又难读又难写,所以,很多人呼吁把汉字改成字母,甚至汉语都不要讲了,讲世界语。我十几岁的时候,思想进步,参加扫盲。教农民识字是很难的,因为农民本来就没什么底子,还有人根本不想学。我教给他们认识人民币上的壹、贰、叁不要认错,能学会100多个字的人就很不错了。”
到了孙茂松上大学的时代,这个行业要解决的问题是把汉字和汉语带入计算机世界。孙茂松那么多的研究,总结下来就是如何让计算机理解汉语。2012年以后,他转向了深度学习的前沿研究。据GitstarRanking统计,基于孙茂松研究团队核心成果的开源项目THUNLP在GitHub上获得了近8万个星标,机构排名居全世界高校前列。
大模型的出现让扫除计算机理解汉语的障碍有了可能性。但是,大模型技术本身就能造成一道技术鸿沟。它需要天文数字的资金、丰富的人才储备、海量数据和多样化的应用场景。中国公司现在能让大模型理解和生成汉语,来自互联网产业多年的积累。2023年以来,中国公司纷纷上线大模型项目,被自媒体戏谑为“百模大战”。“一哄而上”在这个语境里,不是贬义。孙茂松在一次会议发言里说:“不是一下子就能蹦出百模的。这一拨人工智能技术开始于2010年,国内自然语言处理、人工智能领域在技术积累和教学经验上都是很充分的,应该说在国际前沿位置。”
吴甜毕业就进入了百度。她先后开拓了机器学习、语义理解、推荐与个性化、用户建模、深度问答、对话系统等众多人工智能技术方向。她是跟这一拨人工智能技术一起成长起来的专家。除了担任百度集团副总裁,她还是深度学习技术及应用国家工程研究中心副主任。吴甜说:“发展到今天,人工智能并不是单点技术做好就可以了,而应该是建设全栈技术。百度有语音、视觉、自然语言处理等全面的人工智能技术布局,这都是做好多模态的基础。百度建设了四层技术体系,芯片层、框架层、模型层、应用层,都有完备的布局和相应的自主创新技术,这四层之间是互相反馈和促进的。”
百度的第一个产品搜索引擎,就是拉动AI技术的一项重要应用。比如国际上,有些国家是直接用谷歌的,如果它们没有自己的搜索引擎,就很难有动力去推动建设底层技术。吴甜说:“百度有自研的搜索引擎,有动力去做研发,如果应用不够深、应用场景不丰富,现在没办法发展大模型。”
2014年成立的商汤科技则是一家很年轻但有深厚技术积累的公司。创始人汤晓鸥教授是全球人工智能领域的开拓者。他创办的香港中文大学MMLab(多媒体实验室),与麻省理工学院、斯坦福等大学的实验室在2016年一起入选了世界十大人工智能先锋实验室。它是亚洲唯一入选的团队。汤晓鸥培养出了一批人工智能科学家。他曾经评价三位在深度学习领域颇有建树的学生:“王晓刚在深度学习最初几年撒下原创种子,何恺明打牢了深度学习的根基,林达华通过开源和大模型让其枝繁叶茂。”王晓刚和林达华都是商汤创始团队成员。林达华现在是我国人工智能科研领域创新机构上海人工智能实验室的领军科学家。
商汤科技也是一家年轻人的公司,员工平均年龄不到30岁。大装置训练平台负责人张行程,说话声音里都带着朝气和自豪。2023年4月,商汤科技发布了自己的大模型。张行程说:“要把大模型做出来,核心要素就是算力。训练大模型对算力的需求是传统机器学习的上万倍。商汤在算力上的积累开始得非常早,远早于很多同类机构。2019年就开始在上海临港筹建人工智能计算中心(AIDC),2021年建好时算力规模有3700Petaflops,现在算力规模达到8100Petaflops,已有超3.5万块GPU。”人才也非常关键。张行程说:“它是全新技术,只有靠算法领域非常活跃的人才,对这个问题去探索解决,才能够做得好。统计到2021年,商汤有40名教授、250多名博士和博士候选人,科研人数超过公司总人数三分之二。在过去九年里,商汤和商汤的联合实验室在三大国际计算机视觉顶级会议上共发表806篇关于深度学习和计算机视觉的研究论文。我们在全球计算机视觉领域是领跑的。”
商汤的大模型有广泛的下游应用场景,比如自动驾驶。2023年,计算机视觉和模式识别顶级会议CVPR的最佳论文《以路径规划为导向的自动驾驶》,就是商汤科技联合上海人工智能实验室和武汉大学完成的。这也是近10年来,CVPR会议上第一篇以中国机构作为第一单位的最佳论文。张行程说:“现在国内厂商普遍使用的自动驾驶技术基本上都靠一个非常复杂的规则系统,有上万条规则。但凡有规则就会有例外,只要有例外它就处理不好。它的灵活度和智能化程度就没有那么高。引入多模态大模型之后,我只要给它足够多的训练语料之后,它就能像人一样去学会处理各种各样的情况。”
除了百度和商汤,还有若干家科技公司、创业公司、科研团队在做大模型。我们越过了技术鸿沟,站在了发展的一边。但是,我们面前依旧有困难。那么多网友在网上不断地给中国大模型和ChatGPT出题,结果上有差距。王强(化名)是一家科技公司技术负责人,他说:“我们跟OpenAI有代差,我们现在的方案是它一年或一年半之前的方案。算力的差距也比较成问题。Meta他们公布了最新的方案,他们有5万个NVIDIA最新的显卡H100组成的集群,专门用来训大模型。那如果算力少了,那么我们能够尝试迭代的方案就少,认知的前进速度就会变慢,本身就跟他们有代差,再加上认知、成长的速度也慢,这个差距可能就会被拉大,总之影响因素还是比较多的。”
中国公司的大模型跟英文大模型相比,除了算力被卡脖子,还有一个瓶颈是高质量中文语料的稀缺。今年的两会上,全国政协委员,知乎创始人、CEO周源就提出:“在这样的背景下,国内许多大模型开发的研究机构和企业在进行模型训练时,不得不依赖于外文标注数据集,开源数据集或爬取网络数据。这会限制我们人工智能技术的发展和创新应用的推进,也影响我国在全球人工智能领域的竞争力。”
大模型对语料的需求是天文数字。这个行业里有一种说法,互联网上合法合规、能用来训练的数据,已经都被爬取得七七八八了。高质量的数据比如法院判例、裁判文书、医疗诊断记录、政府公共数据、具有科研属性的数据、科研期刊论文、精心校编过的高质量图书等,可能需要妥善考虑和统筹,如何公开、流通和利用。根据AI应用开放社区HuggingFace数据统计,中文开源数据集数量仅占英文开源的11%。
百度的办法是寻求专业合作。在去年的深度学习开发者峰会上百度宣布了跟上海世纪出版集团的合作。上海世纪出版集团是《辞海》的出版单位。吴甜说:“《辞海》是精心编撰的,每一个词条的内容质量都非常高。这些数据对于文心大模型的学习来讲,都很重要。”百度还给文心一言请了导师,都是所在行业里的专家,希望他们帮助文心一言加强在各个领域里的认知。第一批导师分别来自化学化工、医疗健康、传统文化、文学创作、交通运输等领域。
冯志伟1985年到语言文字应用研究所工作。这个研究单位直接受国家语言文字工作委员会领导。冯志伟说:“在1985年左右,全国语言文字工作会议在北京开。要求进一步修改、充实汉语拼音方案。从那时开始,用汉语拼音代替汉字等汉字改革的想法再也不提了。”当时已经有技术使得计算机能够处理汉字,汉字作为文明的活化石又一次跨越时代变迁,在迈入信息社会的前夕。冯志伟说:“如果汉字不用了,再过两代、三代,古书都没人读得懂了,我们的文化怎么传承?”
中华文化几千年,在龟甲和兽骨上,在青铜器上,在石鼓上,在简牍上,在帛上,手抄本、刻本,每出现一种载体,我们总是把历史和文化迁移上去,历经战乱、散佚,流传下来。最近几年,人工智能技术上了一个又一个台阶,它们正在被用在古籍上。北京大学数字人文研究中心和字节跳动合作,就在把卷帙浩繁的古籍带入大模型的时代。
王宇讲话一板一眼,但给我演示这个功能时,有点展示自己孩子表演才艺的小得意。“这是我们自己研发的,互联网公司擅长做阅读体验。它虽然不是说技术很难,但也没那么简单,非常费功夫,要很努力才能做出来。”王宇说。这是个公益项目,字节希望利用自己的优势,让更多的人了解传统文化。“平台上线之后,我看到用户反馈,比如说有一些中学老师,他们希望给学生把课讲得更好。他们利用识典古籍,让学生看到古籍原本是什么样子,古文的背景、周边的历史是什么样子。这个项目对古籍利用有重要的作用。这也是我们的使命。”王宇说。除了王宇这个专职团队,做这件事从技术到人工需要字节跳动里不同部门的支持。字节跳动是个年轻人的公司,互相称呼同学。他们觉得把古籍数字化很有意义,繁忙工作之余,有几百人都报名做志愿者,愿意为这个项目出力。
把古籍做到这样的展示,是把现代汉语的自然语言处理的字处理、词处理、句处理阶段复刻了一遍,并且几乎用上了所有人工智能的新技术。北京大学数字人文研究中心是一个交叉学科的机构,从几年前就开始探索人工智能技术对古籍的开发利用。在识典古籍项目上,又跟字节跳动一起把研究产品化,推向公众。主任王军觉得北大来做这件事有渊源。“胡适先生提出‘整理国故、再造文明’,这是新文化运动的纲领之一,他希望通过整理中国传统文化,使其符合现代社会的需要,进而实现中西融会以创造出新的文明。另外一件事是原燕京大学图书馆馆长洪业先生,是利用西方现代的科学方法对古籍进行整理的先行者。我们现在做的事情仍然是在先贤开辟的方向上继续。”王军说。
数字化古籍的第一步录入,是用光学字符识别(OCR)技术完成的。OCR是个很成熟的技术,很多人的手机上就装有OCR的APP,但用在古籍上需要专门研发。王军说:“现代汉语常用字3500个左右,古籍常用汉字在2万字以上,字书里的汉字量有近6万字。文字量庞大,异体字多,字形多变,版式多样,页面模糊,缺乏充足的训练数据。这些都是古籍OCR的挑战性。”近年来的深度学习技术提高了准确率。王宇给我看识典古籍的后台,一张类似于古代笺纸的PDF上标了很多不同样子的数字编号。他说:“古籍是从右往左读的,我们要标出顺序。古籍上还有注文,所以,我们的编号有的是单行,有的是双行。双行的就是有注文的。古文的扫描条件不一样,所以,我们在实践中发现问题,解决问题,因为我们数字化的只是3000多种古籍,训练数据有限。它是一个持续性的投入,后续我们数字化的新书也可以作为数据。它不是说一次性就把技术问题解决了。”
这个技术还在探索阶段。目前在识典古籍上,用的是搜索增强。王宇说:“我们古籍团队也在想怎么能利用好公司的大模型基座。比如你问我古文里这个字是什么意思,我帮你去调,可以是古籍数据里的,可以是我们百科数据里的,搜索出各种各样的资料来。我们产品上线之后会收集用户的反馈,包括学者的反馈。他们提出问题,我们优化,然后我们还在推新功能。这是长期的事,不是上线就结项了。”
除了通过字节跳动的内容分发能力接触大众,北大还做了一个面向专业学者的古文献分析平台。王军给我举了一个例子,他点开《韩非子》里的一章,“道者万物之始”,“如果我想知道‘万物之始’这个观念,在中国从先秦到元明清这两千多年的过程中是怎么传播的,有没有变化。过去可能需要饱读之士把几百种文献看完,才能总结个大概。现在在古籍数据化的基础上,人工智能技术可以让每一个人都具有这种溯源能力”。王军说。他在这个平台上操作了一下,立刻就出来分析这句话的图表,“万物资始”的观念,最早出现在先秦时期的著作《易经》里,随后,历代怎么演变都列了出来,甚至于从周文王开始,一直到谭嗣同是如何引用的,一目了然。
北京大学数字人文研究中心也在探索大模型技术。训练大模型的投入巨大,数字人文研究中心这种自谋经费的小团队是没能力训练预训练模型的,目前只能利用古籍语料来微调特定领域的应用型模型。它用古籍语料训练,回答问题跟市面上的大模型产品不一样。王军问它读书的方法。它回答:“一遍是一遍功夫,两遍是两遍功夫,在阅读过程中要寻求文字的当然之理,要虚心入里,玩味道理,不要只停留在表面的理解。”这是中国古人的智慧。
周刊主笔、新消费研究者
现在下载APP,注册有红包哦!三联生活周刊官方APP,你想看的都在这里