欢迎来到科普中国特别推出的寒假精品栏目“给孩子的高新科技课”!
人工智能作为当今最前沿的科技之一,正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车,从AI绘画到机器学习,它为我们打开了一个充满无限可能的未来。本栏目将以通俗易懂的方式,用视频和文字给孩子讲述人工智能的原理、应用及其对社会的深远影响。
快跟我们一起开启这场AI之旅吧!
先来看视频:
以下为文字版本:
(阅读大约需要5分钟)
2022年底,“ChatGPT”这个词悄然进入公众视野。
如果你没听说过,或是只把它当成一个聊天机器人,那就太小看它了。
很多行业,比如新闻、律师、教育、客服咨询等等,已经把ChatGPT应用在了生产、服务中。
那么,ChatGPT究竟是什么?本期内容,我们就来了解ChatGPT和它背后的技术。
我们先从它的名字说起。
而G、P、T才是更重要的部分,它是“GenerativePre-trainedTransformer”的缩写。
Generative意思是“生成式的”,这意味着它能够根据接收到的信息,生成文本做出回应。
Pre-trained指“预训练的”,是说在跟你对话之前,ChatGPT就已经经过了大量的文本训练。
Transformer是一种深度学习的模型。可以说,transformer是整个GPT的核心。
要想理解“ChatGPT”,我们就要从AI是如何学说话这件事情说起。
人类说话,是从脑海中的“词典”里挑出一些词,组成句子。如果只是简单地让AI从词典里随机取词,组成的句子大概率是不通顺的,没有任何含义。
为了让计算机能够说出人类的语言,人们引入了马尔科夫模型。简单的说,马尔科夫模型能把一个词和前面的几个词建立起联系。
举个例子,根据语料库,“苏打”的下一个词是“饼干”或“汽水”的概率远比“桌子”或“胡萝卜”之类的词要高。假如继续在“苏打”前面添加一个“吃”字,那么,填“饼干”的可能性又比“汽水”的概率要高。通过这种方式生成的句子,就比随机生成的语句,更接近人类语言。
基于这样的思考,在20世纪70、80年代,一种叫做循环神经网络的模型诞生了。循环神经网络简称RNN,它能够很好地考虑词语的顺序性以及前面词语对后面词语的影响。
但RNN也有一些局限性,比如它存在“梯度消失”效应。随着句子长度增长,说着说着,它就忘记前面说了什么了。
于是,人们对RNN模型进行了优化,开发出了长短期记忆模型,简称LSTM,以解决“健忘”的问题。
但这还不够。基于RNN的模型有两个问题,一是学习速度太慢。二是对于词义的理解不够好。
目前,跟人们对话的GPT模型经过了至少45TB的文本资料训练。
当然了,GPT还在不断优化中。比如GPT-4.0就具备了更强的逻辑推理能力,甚至能理解图片上的内容,前景不可估量。
其实,像GPT这样参数极其复杂、需要经过大量文本训练的语言模型,被称作大语言模型。除了GPT,比如阿里的PLUG,华为的盘古-α、百度的ERNIE3.0等等,都属于大语言模型。
在这些大语言模型的帮助下,我们的工作、生活方式,可能发生巨大的改变。
你,准备好了吗?
策划制作
本文为科普中国-创作培育计划作品
出品|中国科协科普部
监制|中国科学技术出版社有限公司、北京中科星河文化传媒有限公司
作者丨北京云御纪文化传播有限公司
审核丨秦曾昌北京航空航天大学自动化科学与电气工程学院副教授
策划丨符思佳
原标题:《ChatGPT到底是什么?会给我们生活来这些改变↓》