计算机能「理解」多少我们的语言了?极客公园

我们的生活正悄然被自然语言处理技术改变。

1770年,库克船长的「努力号」抵达澳大利亚昆士兰海岸。他留下一些船员维修船只,自己率领一支队伍出发探险。遇上当地土著居民后,一个船员用手指着身体袋囊里揣着幼崽跳来跳去的动物,问一个土著,这东西叫什么?土著说:「Kanguru。」自那以后,库克和他的手下便如此称呼这种动物——袋鼠(后来写作Kangroo)。很久以后他们才明白,Kanguru在土著语言中的意思是,「你说什么?」——TedChiang《你一生的故事》

在地球的任何一个角落,你都能发现在一起的两个人,总会彼此交谈。如果没人能对谈,人会自言自语,对猫儿狗儿说话,甚至对盆栽呢喃。

你或许并未察觉,阅读这些文字时,自然界的奇迹正在发生。你我都属于有这种惊异能力的种族——我们能精确描绘彼此脑中的概念——这种能力就是语言。我们只要张开嘴,发出声音,或者写下文字,就能将彼此心中的意念准确地传递给对方。这个过程如此轻松自然,让人意识不到它的存在。

然而对最强大的计算机来说,理解人类语言并非易事——这便是自然语言理解的研究领域——所谓「自然语言理解」就是人与计算机可以进行有效沟通,计算机能理解用户的意图,执行命令或回答问题。而作为这个领域的研究人员,我们一直努力向这个目标迈进。

老彼得·布吕赫尔画笔下的巴别塔

《创世记》第11章记载,人类原本说着同一种语言,居住在与幼发拉底河相距不远的示拿之地。人们利用河谷的资源建城筑塔。高塔直达天堂,逼近上帝。上帝认为人类过于自信团结,一旦完成计划将为所欲为,便决定变乱人们的口音和语言,并使他们分散各地。高塔于是停工,该塔被称为「巴别」。

如今,现代交通和网络的发展令使用不同语言的人们合作和交流的机会比以往更多,因此对理解对方语言,人们有着迫切的需求。

这次成功的演示和公众高涨的热情为机器翻译研究带来了资金,掀起一阵计算机语言翻译研究的热潮。而当人们期望过高,承诺又无法兑现时,资助就缩减或取消了。就像那个时代人工智能领域的众多分支一样,研究者们低估了问题的难度。

许多字词不只有一个意思,想要正确翻译一句话,计算机必须消除歧义,选出使句意最为通顺的解释,否则就容易犯荒唐的错误。一个有名的例子是「thespiritiswillingbutthefleshisweak」(心有余而力不足),用当时的翻译系统译成俄文再译回英文就变成了「thevodkaisgoodbutthemeatisrotten」(伏特加不错,但肉已腐烂。spirit有「烈酒」的含义)。

尽管在那之后,个人计算机出现和电子词典开始流行,让基于规则的机器翻译研究在部分国家有所复苏(例如日本各大电子厂商),但研究水平不高,仅在有的场合聊胜于无。

直到1990年代,基于数据驱动(譬如大规模双语对照的数据,和大规模的单语数据)的统计机器翻译开始兴起,这个领域才又重新活跃起来。新思路靠自动学习概率化的翻译规律(譬如词对词的翻译,n-gram之间的翻译,或者短语之间、子树之间、句型之间的翻译)来实现翻译系统。这个时期数据规模越来越大,尤其双语对照的数据越来越多。那之后的二十余年,这个领域的研究主流都基于统计机器学习方法。

机器翻译的难点在于领域迁移和自适应。训练机器翻译系统的原始数据可能来自宽泛的各个领域,遇见某个具体领域生僻的词语、句型时,如何快速迁移,以得到高水平的翻译颇为不易,因为这些领域的语料库掌握得少,迁移时知识不足。目前几家著名的在线翻译系统,新闻翻译尚可胜任(因为新闻语料最多),但对银行、法律这些语料稀缺的领域,自适应能力则薄弱许多。

另一个难点是口语翻译,因为口语中夹杂着表达不连贯,语法顺序颠倒,用词不精准、重叠、省略等各种现象,而机器翻译系统大多针对书面语训练,突然用在口语里,表现就会一塌糊涂。因此需要加强对口语现象的处理能力,以及对上下文的理解能力。另外,未来的机器翻译需要与手机语音应用配合,提升对地图、导航、购物、交友、邮件、新闻阅读等的支持,在这个方向还有很长的路要走。

2012年10月,微软研究院的研究取得了阶段性的重要成果,微软研究院创始人RickRashid在天津的「21世纪的计算大会」上公开演示了一个全自动同声传译系统,他的英文演讲被实时转换成与他的音色相近、字正腔圆的中文,赢得了现场观众的掌声。这项技术是由微软亚洲研究院和雷德蒙研究院从事语音识别、合成和机器翻译的很多同事共同开发的。这一演示背后的关键技术——DNN(深层神经网络)也随之第一次进入了许多人的视野。在语音识别过程中,DNN使准确率提升了25%,而将这项技术应用于机器翻译解码优选过程,这项技术令翻译的准确率又提高了1-2个百分点。

在这次成功演示之后的两年多里,我们微软亚洲研究院和位于美国总部的微软雷德蒙研究院共同努力,不断地改进中英实时语音翻译,于今年4月发布了SkypeTranslator实时语音翻译技术的中文预览版,让普通用户也能体验到实时中英文语音翻译。SkypeTranslator构建于一个10亿对量级的超大规模双语对照语料库基础之上,应用机器学习的方法,在海量的候选集中找到最佳的译文。作为人与人之间的沟通工具,SkypeTranslator针对口语对话中常见的问题进行了处理,并提供了许多具有本地语言特色的服务。

冬天能穿多少穿多少

夏天能穿多少是多少

上面的两句话说明了语言的歧义性。人的言辞孤立地看,有时候有些模糊,不过和旁人讲话,他们总能领会你的用意。设想你对配偶说:「知道钥匙放在哪儿了吗?」如果对方仅仅回答:「是的,我知道。」你一定不会满意——因为你的真实意思是「快告诉我,钥匙放在哪里了?」这种相互理解就是所谓的「对上下文敏感」。

由于人们使用语言的随意性和多样性,带来了问题理解的困难。给定一个问题,电脑要理解问题的类型(事实类,定义类,选择性,观点类等)和答案的类型(人、地点、机构、定义、电影名字,文字序列等等)。比如:

问答系统与机器翻译看似并无明显关联,但是两者实际上可以互相借鉴。机器翻译的技术可以用于问答系统中,譬如转述、语义解析等,也可以把问答系统变换为一个从问题到答案的翻译过程。我们后来发现,问答系统中使用的技术也恰能借鉴到机器翻译中,令翻译的质量明显提高——过去,机器翻译需提前在线下实现翻译模型,而新做法是模仿基于web的问答系统,将原句直接抛给搜索引擎,利用搜索引擎的搜索结果动态得到词汇或者短语的翻译模型,以及目标语言的语言模型,以实现翻译候选生成和排序,这种方式对处理新词和领域自适应颇为有效。

为了实现自然语言的人机对话,除了问答系统,还要有一个聊天系统。问答系统用于回答问题或者理解了问题之后完成一定的任务。而聊天系统是一个非正式的社会交往需求,用于情感交流与连接。人们在交流过程中,聊天、问答的技能是穿插进行的。同时,为了体现多样性,答案所采用的句式,以及聊天的回复风格要根据场景和用户的特点发生变化。

微软小冰是我们建立自然的人机自然语言对话的重要尝试。在小冰中,我们除了需要建立问答系统和聊天系统之外,还要根据用户输入的句子,决定是进入聊天还是进入问答。比如:

人:你都不理我了。(聊天)

小冰:我怎么不理你。(聊天)

人:荣耀6plus多少钱(问答)

小冰:京东大哥说过是2,899元哦。(问答)

人:你知道的真多呀。(聊天)

小冰:我应该的呀。(聊天)

人:你知道李敏镐吗(问答)

小冰:【一张李敏镐的图片】(问答)

而小冰的回复不仅仅要看当前的句子,还要看聊天的历史。比如另外一个例子:

人:请推荐一款手机。

小冰:你看看这款如何华为荣耀3X畅玩版,1099元。

人:我不要华为的,我要iPhone的。(系统需要知道产品类别没变,但是品牌变化)

小冰:那你看看这款iPhone如何呢?iPhone6,5988元,64GB,金色。

人:我要能支持128G存储空间的。(系统要知道产品类别和品牌没有变化)

小冰:我看看。那你看看这款?iPhone6,6488元,128GB。

人:算了,我还是要华为的吧。(系统需要知道产品类别没变,但是品牌变化)

小冰:那么这款华为P8,最新款,3800元。怎么样?

此外,系统需要对用户的输入进行理解以判断用户的意图。比如:「给我推荐一款性价比高的手机,要诺基亚的。」

UserIntent=Recommendation

Product=SelectID

Where

{

IDCategory手机(cellphone)

IDBrand诺基亚(Nokia)

IDFacet性价比高(cost-effective)

}

在对用户意图的理解基础上,要进行必要的对话,以便确认所有必要的信息,来决定接下来的动作,比如推荐,搜索,聊天还是问答。综合利用聊天和问答技术来形成一个聪明的对话系统,是一件非常有意思的事情。不过这个问题挑战也很大,它是目前自然语言理解的最核心的问题。我们需要耐心地循序渐进地推进研究。

机器翻译的应用还远不止文字翻译和问答系统,让我们先看看这两篇体育报道的开头:

「周日,天使队在第九局中落后两分时,情况看来不妙,但凭借弗拉迪米尔·葛雷诺赢得的关键一分,洛杉矶天使队挽回败局,在芬威球场以七比六击败波士顿红袜队。」

「周六下午(4月24日),密歇根大学棒球队在威尔彭棒球场——具有历史意义的雷·费舍尔体育场的所在地,通过赢得四分的第五局比赛,扭转局势,最终以七比五赢得了与爱荷华棒球队在周末举行的三场比赛中的最后一场。」

如果你无法分辨哪篇是由人类写的,那你不是唯一一个。

——《纽约时报》

以这些关键词为种子,便能抽取包含它们的语句,再次筛选这些句子,挑选最重要的几句话,就能代表所有文档的摘要了,这种方式称为「抽取式摘要」——没对文字再加工,只把重要的句子抽取出来。还有一种称为「生成式摘要」的技术,会对文字进行再整理,将这几句话揉成一句,还能保留原始信息。不过目前「生成式摘要」技术还不成熟,通常我们所见的案例都来自抽取式摘要。

对了,关于这节开头的两段报道,第一段是计算机,第二段是人类作家的作品。

而我个人与自然语言计算的「缘分」或许源自我小时候偶然在别人家发现的一本《唐诗三百首》,由于我非常喜爱所以就借回家天天背,身为地质工程师的父亲见我有这方面爱好,便为我订阅了诗刊。从此我爱上了文学,甚至大学都想考取文科,只是在父亲「学会数理化,走遍全天下」的建议下,才改学理科。但我总琢磨着,计算机应该也可以做与文字有关的事——自然语言处理就正是其用武之地。

2004年,时任微软亚洲研究院院长、现任微软全球执行副总裁沈向洋博士让我带领团队试着搞个自动对联,立足中国传统文化做一些创新。我们的研究从机器翻译入手,把对对联当作翻译问题来解决——把输入上联对下联想象成输入一种语言,再翻译出另一种语言的过程,只不过是同语言翻译。在设计模型的时候,我们加入了对联的语言学约束,譬如平仄和对仗。我们收集了古今中外的160万对名联,运用了大数据和翻译技术,基于机器学习进行自动建模。这个对联系统(duilian.msra.cn)于2005年推出,用户可以输入上联,系统会自动对出数个下联、并生成恰当的横批供用户选择。后来我们做的绝句生成,也借鉴了对联技术,用户给定创作的主题,系统经过一个交互过程,逐句生成一首诗。跟对联不同的地方是,在生成某一句的时候,不仅仅要看上一句,还要看前面的所有句子,使得生成的句子前后连贯。

另外,今年我们推出的微软字谜与对联以及刚刚发布的微软绝句也有异曲同工之妙,它针对字形谜,由谜面迅速分析给出谜底,还可以根据用户的谜底迅速生成谜面。因为谜面和谜底是一个映射和联想的过程,研发也是基于互联网平台,对大数据进行搜集、利用统计机器学习方法自动学习建立智能模型。

在冷冰冰的科技外表之下,自然语言处理技术也能为我们带来恍然大悟和会心一笑。在大数据、机器学习和互联网的推动下,语言的理解、机器翻译、自然语言对话系统、文本生成取得了令人激动的进步,也预示了电脑认知能力可期待的未来。然而人工智能依然任重道远,通过坚忍与淡泊的研究,不断地逼近自然语言理解的极限,并将它巧妙地应用在现实系统中连接广大用户,是与我一样的研究者们毕生的追求。

用极客视角,追踪你不可错过的科技圈.

聊科技,谈商业。

公司地址:北京市朝阳区酒仙桥路4号751D·Park正东集团院内C8座105室极客公园

THE END
1.能穿多少穿多少夏天?冬天,能穿多少穿多少夏天,能穿多少穿多少!这爱问知In winter, can wear to wear the number! Summer, can wear how to wear the number!https://iask.sina.com.cn/b/fVE56VtpR.html
2.如何念下列句子[冬天:能穿多少穿多少;夏天:能穿多少穿多少]理解如何念下列句子 [冬天:能穿多少穿多少;夏天:能穿多少穿多少]理解意思?汉语的意境 扫码下载作业帮搜索答疑一搜即得 答案解析 查看更多优质解析 解答一 举报 冬天那句的意思是,冬天天气很冷,能穿多少件衣服,就都穿上取暖.夏天的意思是,夏天天热,不能穿多少衣服,别穿太多. 解析看不懂?免费查看同类题视频解析查看https://qb.zuoyebang.com/xfe-question/question/24e61f04233f2f5003ce67bda913a3aa.html
3.冬天,能穿多少穿多少.夏天,能穿多少穿多少.请问这两句话怎样理解检查辅导人员每半年对包片网点开展常规辅导不少于()次 https://www.shuashuati.com/ti/0442f5af5bc243878cf5b092d2af570b.html
4.“能穿多少穿多少”中的“多少”是什么词?20221206冬天“能穿多少穿多少”,夏天“能穿多少穿多少”,引号中一样的话在两句中表达的意思不同,前者指多,后者指少。 其实,虽然,这句话的前半句和后半句看起来是一样的句子,字数一样,字词和字词的顺序也一样,但是,“多少”在前后两句中不是同一个词,前半句中的“多少”都是一个词,后半句中的“多少”都是https://www.jianshu.com/p/681ca023a654
5.绿叶书苑第233期大梦人生-梦烛思雨-定军山人-一抹,阳光-方向-黑岩-天涯,我的梦-张霄-秋雨-老顽童-茶语花香-齐天大圣-心月-笑对人生-蒲恒旭-风尘https://www.meipian.cn/1iot054b
6.怎么中文读冬天能穿多少就穿多少 夏天能穿多少就穿多少 当然这都是客观题,如果加上说话者的身份,汉语就像地狱里最妖邪的女巫,你永远搞不清它的魔棒指向的真正方向。 比如女生说,王小马你完了,今天的事情没完! 很可能她捶你两下就重归于好了。 又比如女生平(愤)静(怒)地说:我没事,我走了。 https://blog.csdn.net/weixin_29910561/article/details/112671892
7.冬天竟然比夏天穿的只多了这么一点点冬天夏天还是有区别的,冬天穿长裤,夏天穿短裤。 赞 回应 树上的女妖 (妖就是妖永远摆脱不了迟到的宿命) 楼主 2011-01-22 18:41:19 我同学还说前几天见一个女的就穿了条超薄的裤子出门。。。肉都隐约可见。。。她说她看到那人。。。顿时哆嗦了下! 赞 回应 狐狸未成精 (失眠=明天又起不来) 2011-https://www.douban.com/group/topic/17194476/?cid=197152179
8.宝宝冬天穿多少合适?宝宝冬天穿多少合适? 阅读量:33440 女11岁,有些年轻人说宝宝要冻,但年老的人要宝宝穿的多,多少算适合?胡勇 主任医师 山东大学第二医院 手外科 足踝外科我要问专家 要适中,不要太暖不要太冷。在不冷的前提下适当少穿让孩子能感受温度变化。相关推荐 https://m.chaonei.com/qa_6925857