刘江:ChatGPT和GPT

先说一个判断,我认为ChatGPT尤其是这几天GPT4,可能是我们有生之年见到的最具革命性的通用技术创新,它预示着智能革命的开始,所带来的产业机遇和挑战都将是极其巨大的。人类历史上可能只有工业革命能与之相提并论:

-工业革命实现了大多数人从农业到工业的转变;

-智能革命将实现大多数人从劳动者到消费者、自我兴趣探索者的转变。

因为变化太大,它的底层逻辑并不容易看懂。

我建议同学们首先都要去使用它,才能逐步理解它,然后大家一起多交流,才能打破盲人摸象的问题。这也是我和几位专家一起在图灵建了共学营的初衷。

然后更重要的是,我们所有人都要退后一步,打破所有习以为常的假设,重新思考和评估一切。

(自由交流环节)

ChatGPT到底是什么?应该怎么理解?

下面我会从三个角度来分析。首先我们来看ChatGPT里的Chat。

01

第一个角度:Chat=下一代自然交互界面和主要入口

我有一些从事AI科研的朋友,他们的专业水平其实很好,但对ChatGPT进行一番研究(往往是不太充分的研究)后的反应是:ChatGPT好像没有太大的技术创新啊?不就是把模型搞大了,参数更多嘛?用的基础技术都是之前别人搞的嘛。其实也不是他们这么说,连深度学习三巨头之一、图灵奖得主YannLecun也是这样讲的。

他们可能没有意识到,其实ChatGPT仅仅在交互上的创新就会对产业格局乃至社会产生巨大影响。这也是我对过去几十年信息技术行业最重要的观察:价值最大的技术,往往都改变了大众交互方式。

我们来回顾一下人类和机器交互的历史。

其实在最早的人机交互可能是手动开关和打孔机。后来产生了一个里程碑式的交互进步:

第一代交互方式:CLI命令行界面(Command-LineInterface)

人们开始可以通过键盘、命令、显示器与机器进行交流。但这必须是受过训练的技术人员才能完成的,需要记忆很多命令和选项,对普通人门槛很高。

于是后来,更易用的交互方式诞生了:

第二代交互方式:GUI图形用户界面(GraphicUserInterface)

到目前为止,我们大多是用的还是GUI,比如Windows、Mac电脑或苹果、安卓手机,我们通过屏幕上的窗口、菜单、图标等等,用鼠标、手指、动作与之互动,完成与机器的交流,普通用户稍加学习都能操作。这个发明实际上是目前仍然市值最高的两家IT公司——苹果和微软的基础,乔布斯和盖茨先后从施乐公司的PARC研究院偷师,学到了这项技术。

但这还是有一定门槛的,还是得学。尤其输入法就是个很大的障碍。很多老人和不识字的小孩子就不容易学会。输入法没问题的用户,使用软件的时候,还是要在各种菜单里寻找自己需要的功能,设计画图类的工作,还要通过鼠标或者触摸,一点一点的拖啊拽啊改啊,非常低效。

但今天ChatGPT普及之后,将使我们进入新一代交互方式:

第三代交互方式:NUI自然用户界面(NaturalUserInterface)

我们人之间每天互相交流就是通过听和说,这就是自然用户界面。自然界面是人人生来都会的,不用学,是因为它本来就是我们互动的方式。

虽然ChatGPT现在还主要是靠打字,但只是过渡。因为它什么都听得懂,接得住,是天生应该通过语音来使用的。我相信很快OpenAI推出的独立ChatGPTApp,会支持语音。

我这么讲了以后,大家意识到为什么有些敏感的观察家会说ChatGPT将杀死搜索引擎了吗?对,搜索引擎还是第一代交互方式——命令行界面,是上古时期的用户体验。基于语音的自然界面,对它是一种跨代、降维打击。未来,ChatGPT也很容易多媒体化,会支持图片、视频、音频,这些方面的研发都已经在最先进的实验室里(比如OpenAI和智源)如火如荼的进行中了,而且进展很快。

最终,与之匹配的智能设备会是什么?之前小扎(指扎克伯格,Meta创始人)认为是VR,现在看不太像,他自己也承认现在AI更重要了。

我觉得AR眼镜(能看能听的)最有可能成为取代手机的主流计算设备,当然爱美的女同学可以戴隐形眼镜。我戴着眼镜进来会场一扫,哦,这是我的老朋友张义,这是三块钱搞的活动,每个同学他都能认出来,而且记住。它也能记录所有我说的和我听到的话,我看到的事情。第一人称视角,跟钢铁侠里面的贾维斯一样。这样系统会和我是一样的体验,获取我接受的所有数据,它作为一个个人助理,会最懂我,也能给我最贴近需求的服务。

最懂我们的数字助理将成为我们获取信息的主要入口。那个时候,手机就消失了,App可能也都不需要了。要知道,现在的科技巨头大多是手机和App公司。所以这里的颠覆是巨大的。

我们再来看ChatGPT里的GPT。

02

第二个角度:GPT=通用智能大模型AGI

ChatGPT到底是什么?中国投资圈喜欢说AIGC(AI生成内容,AIGeneratedContent),国外喜欢说GAI(生成式AI,GenerativeAI),其实这些表述都有一定的误导性。正确的表述应该是AGI(ArtificialGeneralIntelligence)或者通用人工智能大模型。

OpenAI从一开始就是要做AGI的,因此他们CEO之前在Twitter上对GenerativeAI这个词大行其道表示过不满。

为什么呢?AGI或者说通用人工智能,是指人工智能系统能够干普通人能做的任何事情,并不只是生成。GPT的大思路其实是认为人类智能各种表现,本质上都是通过生成完成的,都是根据已有的一些信息,产生下一个词、再下一个词。比如我们所谓的理解,其实是收到一些信息后,生成一段自己的话,表示类似的意思。仔细想想,情感、意识、自动驾驶,其实也是这样,我们之前认为的很神奇的人的行为,这么看,也并不是那么神奇。

称GPT这样的技术为AIGC或者生成式人工智能,把这个大思路想小了。

这部分其实挺技术的,我来试着带大家理解其中最重要的思想脉络。

仅仅有语音为主的自然用户界面是不够的,因为之前Siri、Alexa和小度之类的语音应用也火了一阵,但慢慢就没有太多人用了。

ChatGPT只是冰山一角,本身看上去似乎只是个交互界面。而且根据《纽约时报》报道,这个轰动世界的交互界面,是一个因为有竞争,团队停下手中的活,用了13天临时赶出来的一个产品。

它真正强大的,是底下巨大的通用人工智能模型——GPT(最新的版本是GPT-4了)。

什么叫模型呢?可以比较粗略地理解为一个函数。

比如我们在中学都学过的函数:y=ax+b,也可以叫它模型,这个模型只有两个参数:a和b。

GPT-4的参数量没有公布,但GPT-3的参数已经高达1750亿……大家想象一下,这该是多么复杂的函数,参数多到人已经无法理解也无法解释了。

为什么要把参数搞这么大呢?简单地说,就是因为自然界最聪明的机器——人脑也是这样的。

我们知道,人脑主要是由神经元细胞组成的,一个神经元大概长成这样:

除了绿色的细胞核部分,左边很多树枝似的叫树突,负责接收其他神经元的信号,右边长长的叫轴突,负责输出信号给其他神经元。这些突起之间通过突触传递信息。人脑大约有1000亿左右这样的神经元,100万亿个突触。就是这么简单的结构,一旦它们形成了一个复杂网络,就使我们每个人变得这么聪明,能学会很多东西,能产生感情,能思考,有自我意识,还能彼此合作……

现在最先进的人工智能系统(以ChatGPT和GPT-4为代表)和人脑类似,也是由许多人工神经元组成的。人工智能模拟人类的神经元,抽象成数学表达,就是下面这张图。有x输入(变量),w神经(参数),b神经元,a输出(输出也可以很多个)。大家看,是不是很像上面的大脑里的神经元?

先进的人工智能系统也是用很多很多这样简单的人工神经元组成的,当然里面细节非常多,有很高深的数学和计算机知识。

具体长什么样呢?ChatGPT和GPT-4都没有论文,找不到很直观的比较详细的架构图。我们用2012年的ResNet的图来感受一下。ResNet有152层,几十万神经元,总参数是6000多万。

这个分层示意图上的数字表示这一层上神经元的数量,比如最右边的1000、2048等。有些层上的数字比较小,需要将数字相乘,所以有些层神经元是上万的。

大家不要小看ResNet,这是我们中国人在这十几年人工智能领域最高成就,也是全世界都认可的,论文引用数已经接近16万了,非常恐怖的数字。2012年,当时在微软亚洲研究院的孙剑老师(去年不幸英年早逝,非常非常可惜)带着何恺明、张祥雨、任少卿一起,通过ResNet,第一次将计算机视觉的水平提升到超过了人类。

而2020年,第一个大模型GPT-3诞生,最近GPT-4出来,把语言甚至某种意义上把通用智能都攻克了。

GPT-3有几十亿个神经元,一共有1750亿个参数。参数和人脑的突触是对应的,所以GPT-3大致相当于人类大脑的千分之一水平。GPT-4的参数量没有公布,但从OpenAI负责人在此前采访的口气来看,很可能没有数量级的提升,更多是在原来规模上优化。

这是因为,千亿规模的大模型,潜力仍然还没有挖尽。那什么叫大模型呢?

为什么分得这么细,因为具体做法都不太一样。简单地说,大家都在训练各种小的专用模型,而且模型规模都不大,几千万、几亿参数就了不起了。所以从现在来看都是小模型。

而大模型呢?GPT全名叫GenerativePreTraining(中文意为生成式预训练,这是OpenAI自己的称法,而不是媒体更喜欢说的GenerativePretrainedTransformer,那是Google的BERT论文里搞错了,才这么叫开的)。

第一代GPT是2018年6月发布的,参数量是1.17亿。

2019年2月升级为GPT-2,和同代Google搞的BERT都是10亿级参数的模型。

而2020年5月,GPT-3一下子干到了1000亿这级别上,提升了两个数量级。这是人类历史上第一个这么大规模的人工神经网络,也就是现在已经比较常见的“大模型”。

此外,还在网页(WebGPT)、图片(ImageGPT、DALL·E)、代码(CodeX)、音乐(Jukebox)、语音(Whisper)等方面也做了很多工作。

GPT系列论文的思路非常一致,就是尽量选择简单的架构,用更多高质量的数据、更多的算力训练出更大规模的模型,而且各个环节尽量减少人工干预。目的只有一个,模型能像人脑一样,更加通用,完成各种任务。到了GPT-3这个千亿模型,这个想法基本上实现了。

而现在ChatGPT、GPT-4这种更新的大模型出来,效果更是惊人,AI似乎什么语言任务都会了,而且理解和生成能力都特别强。GPT-4在主要人类识别人才的许多考试都能考到优等生的水平。

大模型为什么这么神奇?首先是我们前面讲到的,它和人类大脑的原理类似。更有意思的是,研究发现,大模型和小模型相比,真的有一些突变。

GPT-3和其他大模match型出现后,研究人员对比之前的小模型,发现有神奇的事情发生了,大模型突现出一些此前从未出现过的能力。

比如你让它做一个复杂的数学题,一开始它会给出一个错误答案。然后你可以说:错了,再仔细想想、一步一步来。咦,你发现它马上就改成按步骤来算,就算对了。这种能力骄傲思维链。

有研究人员总结出100多种这类能力。请注意,在10亿以及小几百亿参数的小模型里,是没有这种能力的,只有大几百亿的大模型才会出现。

所以,大模型真的有点像动物进化,我们知道鱼会游泳,鸟会游泳,狗的嗅觉很灵,猎豹跑得很快超级敏捷,但它们的大脑是没那么聪明的,远不如灵长类。这就是小模型和大模型的区别。神经元的数量还是极其关键的。

03

第三个角度:ChatGPT=AI时代的操作系统

如果说前两个角度分别是从用户和技术角度来看ChatGPT的话,我们接下来要从产业角度进行分析。

大家都知道之前信息产业最核心的部分一直是操作系统,PC时代是Windows,移动时代是iOS和Android。而且操作系统天然具有垄断性。芯片也很重要,但芯片相对被动,这也是为什么移动时代并没有出现统治性芯片公司的原因。

ChatGPT加上大模型不仅提供了交互界面,还提供了通用能力。而界面+通用能力,就构成了操作系统。

操作系统意味着什么?它不仅提供用户入口,而且所有的计算资源都是由它来管理。更可怕的是:过去的操作系统还不是智能的,ChatGPT是智能的操作系统,它会越变越强,可能具有终极性。

ChatGPT将是AI时代的操作系统,影响非常巨大。

我们中国是没有干成过操作系统的,操作系统一直在美国人手里。这一波如果不赶上,将错失AI时代操作系统。ChatGPT已经明确不对中国开放,未来再这样发展五年、十年,我们有可能成为一个相对低智能的社会。

在科学史上也有GPT这么一个缩写,正好是另一个解释:GeneralPurposeTechnology,也就是通用技术。比如电力、蒸汽机、电脑、互联网……它们都是通用技术。它们的出现影响了各行各业,本身还能持续改进,会发展出更多与之匹配的互补性技术,引发连锁创新。

我们都知道之前的通用技术带来了怎样的巨大影响。

机遇和挑战同在,我希望中国更多的有识之士、有能力的人,投身于这个方向,拥抱新时代。

THE END
1.AI提效工具推荐——SiderSider(ChatGPT 侧边栏)是您有用的人工智能助手,您可以在浏览任何网站时使用它。 Sider 帮助您在所有网站的侧边栏中阅读和撰写文章。它支持 GPT-4o mini/GPT-4o 模型、智能互联网访问、YouTube 摘要、ChatPDF、AI 绘画,以及与 ChatGPT、Claude、Gemini 和 Llama 的 AI 聊天机器人! https://m.sohu.com/a/822223830_121124363/
2.Sider:ChatGPT侧边栏,GPT4,联网,绘图Sider: ChatGPT侧边栏,GPT-4, 联网, 绘图 插件功能 欧易OKX 领先的加密货币交易平台,注册领200 USDT数币盲盒,币圈常用的交易平台! APP下载官网注册 1 强大的侧边栏 ? ChatGPT 翻译器 ? ChatGPT 词典 ? 语法检查 ? 自定义任何提示https://www.fkxz.cn/dhoenijjpgpeimemopealfcbiecgceod/
3.Sider:ChatGPT侧边栏+GPTChatPDF 综合图像工具 群组人工智能聊天 支持o1 & o1-mini、GPT-4o mini、GPT-4o、Claude、Gemini 和 Llama 任何问题都能立即得到解决 一个问题,@所有bots同时回答 支持ChatGPT 4o Scott Gardner 易用性、实用性和灵活性都是A++。我尝试过几款最高评价的LLM AI扩展,Sider绝对是我目前最喜欢的。我喜欢可以通http://www.sider.ai/
4.SiderAI官网Sider AI是一款方便实用的Sidebar插件,支持ChatGPT-3.5、GPT-4、Claude和Bard。可以帮助用户在任何页面上使用AI工具,以获得即时的AI帮助。https://www.zhanlian.net/sites/8614.html
5.ChatGPT侧边栏助手(GPT4,Vision)可以在 Microsoft Edge 的边栏中打开此扩展。通过在边栏中打开扩展,可以在并行视图中浏览和访问扩展。 描述 通知:现已支持GPT-4o模型! ChatGPT侧边栏助手(GPT-4,Vision)是一款由OpenAI公司开发的人工智能助手,利用GPT-3.5和GPT-4技术。该助手可在国内免费使用,并提供购买次卡以解锁更多token和功能的选项https://microsoftedge.microsoft.com/addons/detail/chatgpt%E4%BE%A7%E8%BE%B9%E6%A0%8F%E5%8A%A9%E6%89%8Bgpt4vision/odpmikmjaiapjammnphnfacangakndmk
6.Sider:ChatGPTSidebar&AIToolsExtensionSider is a Chrome extension that enhances productivity by integrating ChatGPT, GPT-4o, Claude 3.5, and Gemini 1.5 into your browsing experience.http://chrome-stats.com/d/difoiogjjojoaoomphldepapgpbgkhkb
7.推荐一款好用的ChatGPT浏览器插件!目前打着ChatGPT的招牌而衍生的应用众多,但是真正体验到的却没有几个。今天,给大家推荐一个实用好用的ChatGPT插件:Sider 1、介绍 Sider(Sider –AISidebar)是一款基于ChatGPT的智能侧边栏插件,是一个可以让你在Edge和chrome浏览器上与GPT-4智能聊天的神奇免费插件。它可以让你体验到人工智能的魅力,它可以让你在任https://blog.csdn.net/jinjiangongzuoshi/article/details/132353444
8.ChatsNowAI助手:ChatGPT,Claude侧边栏(GPT4,眼睛)ChatsNow AI助手:ChatGPT,Claude 侧边栏是人工智能助手,支持GPT - 4、Claude2、GPT - 3.5。使用GPT、Claude为你提供聊天、翻译、Vision、联网等智能化服务。 ChatsNow AI助手:ChatGPT,Claude 侧边栏是人工智能助手,支持GPT - 4、Claude2、GPT - 3.5。使用GPT、Claude为你提供聊天、翻译、提问、自定义提示等智能https://www.chajianxw.com/product-tool/50063.html
9.GPT4发布功能强于ChatGPT还能识图和角色扮演OpenAI总裁兼联合创始人格雷格·布罗克曼演示GPT4可以完成GPT3.5无法完成的任务 (OpenAI演示视频截图) GPT4比ChatGPT强在哪? 据了解,火爆全网的ChatGPT最初基于GPT3.5模型,而GPT4的功能超越了GPT3.5,展现出了更加强大的语言理解能力,能够完成一些ChatGPT无法解决的问题。 http://m.bjnews.com.cn/detail/1678866588168491.html
10.搜集一些免费ChatGPT4/GeminiPro的服务列表https://chat.allai.works/ https://free.netfly.top/ http://f1.sbgpt.cc/ https://chat18.aichatos.xyz/ https://chat.openai.com.do/ https://chatforai.store/ https://nx.chkzh.com/ https://chatgpt.usbot.net/ https://s.gpt4fr.ee/ https://www.lanxh.com/2937.html
11.gpt4和chatGPT的区别GPT-4和ChatGPT是两种不同的人工智能模型,他们各自具有不同的功能和应用场景。下面我们来详细介绍一下这两种模型的区别。 GPT-4是一种新的语言生成模型,它是OpenAI公司*近发布的一种预训练模型,是GPT系列模型的*新版,也是目前世界上*大的预训练语言模型之一。它的主要特点是具有更强的语言理解和生成能力,同时也能http://176902877.b2b.11467.com/news/3252734.asp
12.4个免费插件,装上之后让你的ChatGPT,原地起飞,秒杀付费版GPT4. Sider 这是一个浮窗类插件,可以跟随进入 Chrome浏览器的任意界面。 比如:我们选中当前正在编辑的这句话,就可以让它借助 AI功能,进行总结、翻译、释义、续写等操作。 这就等于,随时随地带上Notion AI。 比如,你在搜索信息时,它会同步提供来自 ChatGPT数据库的建议。 https://www.shangyexinzhi.com/article/11803718.html
13.如何免费使用ChatGPT4?自从ChatGPT发布以来,它就取得了巨大的成功。无论是常春藤法学考试还是商学院作业,ChatGPT都被用于各种试验。统计数据显示,ChatGPT每月吸引约9600万用户。随着ChatGPT的巨大成功,Open AI最近推出了它的最新版本,名为“GPT 4”,它再次成为了技术界最受关注的发布。 https://www.jianshu.com/p/db9046fa642e
14.如何在ChatGPT上使用GPT4?(GPT4是什么?)电脑知识是的,Bing AI 由 OpenAI 的 GPT-4 模型提供支持,并且已经有一段时间了。所以,如果你一直在使用新的 AI 驱动的必应,你就在不知不觉中使用了 GPT-4。如果您担心 Bing Chat 上的 GPT-4 和 ChatGPT 上的 GPT-4 之间的响应质量差异,请不要惊慌。http://www.dnpz.net/diannaozhishi/6145.html
15.特别论坛总结从ChatGPT到GPT2023年03月25日,由CCF YOCSEF南京举办的“从ChatGPT到GPT-4: 大模型的时代机遇与挑战”特别论坛在南京大学国际会议中心成功召开。CCF YOCSEF南京候任AC委员朱光辉(南京大学)和CCF YOCSEF南京委员杨旭(东南大学)担任执行主席。CCF YOCSEF南京候任AC副主席吴天星(东南大学)和王帅(南京乾联科技)担任在线执行主席。CCF http://www.yocsef.org.cn/YOCSEF/Branches/Nanjing/News/2023-04-04/789720.shtml