人人都能懂的ChatGPT解读腾讯云开发者社区

ChatGPT发布了两个多月,热度不降反增,不断火爆出圈。是时候,为不懂AI技术的同学们白话科普一下了。

本文将用浅显且不严谨的语言解惑以下问题:ChatGPT为什么能火起来?ChatGPT背后的关键技术是什么?我能弄个自己的ChatGPT吗?我怎么用它来赚钱?

对话机器人不是个新技术,以往的机器人产品很多,为什么这次OpenAI公司推出的ChatGPT能这么火?因为以前的机器人只能做简单且有限的事,问天气、放音乐还行,问个复杂一些的事就有点“人工智障”了。ChatGPT可以说是技术上的量变引起了效果上的质变,在三个方面让我感觉很惊艳:

在ChatGPT背后起关键作用的是一种被称为大规模语言模型(LargeLanguageModel,LLM)的东西,ChatGPT用的这款语言模型命名为GPT-3.5,GPT是生成式预训练(GenerativePre-Training)的缩写,目前的版本号是3.5版。此外,在GPT-3.5之上,ChatGPT还通过基于人类反馈的强化学习(ReinforcementLearningfromHumanFeedback,RLHF),使GPT能够记住之前的对话、承认错误、在连续的多轮对话中给人很顺畅的感觉。

顾名思义,大规模语言模型就是非常大的语言模型。什么是语言模型呢?

简单说来,语言模型的作用就是根据已知句子的一部分,来预测下一个单词或者空缺部分的单词是什么。比如,给你前半句:“国庆前夕,天安门广场前伫立起一个____”,你会预测出空白部分大概率会是“大花篮”。

其实,你天天都在用语言模型,当你使用手机或电脑里的输入法回复消息时,它就在推荐你下一个单词。ChatGPT使用的GPT-3.5可比输入法中的语言模型要大很多。输入法语言模型占用的存储空间可能只有50MB,而GPT-3.5有800GB。

GPT为什么会那么大?因为它内部是神经网络的结构。大规模语言模型的基础单元叫做感知机,它模拟了人脑中神经元的结构。这些感知机组织成庞大的网络结构,用来“山寨”人脑的神经网络。

一般情况下,一个正常人的大脑约有800~1000亿个神经元,以及约100万亿个突触。神经科学家PaulMaclean提出的三元脑(triunebrain)模型,将大脑结构分为三类:爬行脑、哺乳脑、人类脑。爬行脑最早进化出来,负责呼吸、心跳、血压等,完全自动运作。哺乳脑负责情感、记忆、习惯形成等,能够做出非常快的决策。人类脑最晚形成,负责一些复杂的分析推理,是做慢决策,即所有需要深思熟虑的事物。

GPT-3.5的参数总量达到1750亿,虽然距离人脑突触的量级还有差距,但也已经显现出之前小规模模型所不具备的推理能力。要想足够智能,网络规模足够大是个必要条件。

大模型的核心是一个叫Transformer的组件,Transformer在这里可不是"变形金刚"的意思,也许翻译成"变压器"意思更接近些。

想想我们国家的西电东输工程,西部利用水力、风力、日光所转化的电能,经过变压器压缩成高压甚至特高压,再在电网上传输,到了东部之后再逐级降压,然后才能使用。变压器在其中先升压再降压,有效降低了能量在传输过程中的损耗。

我们人类在交流过程中也有类似的过程,同事A跟你说了一件事,你并没有逐字逐句的记在脑子里,而是理解了其中的语义,在脑子里形成一种意识流,这是一种压缩编码的过程。你脑子里保留的意识流具体是什么,你也说不清楚---也不需要说清楚。当你向同事B复述这件事的时候,你重新把它组织成语言,保留了其中的各项重点内容,通过一系列的发音或文字表达给对方,这是解码的过程。这种先编码再解码的过程,就是Transformer的工作原理。另外,在实际当中,有些语言模型只用到堆叠多层的编码器,有些只用到堆叠多层的解码器;堆叠的层数也多有不同,少的有6层、12层,多的有48层。

如果你有一些计算机基础,听说过词袋模型(BagofWords,BOW)、循环神经网络(RecurrentNeuralNetwork,RNN),那么对Transformer就更容易理解了。

此外,大规模语言模型还带给人们的一项意外的惊喜,那就是让人细思极恐的思维链(Chain-of-Thought,CoT)能力。

这项能力并不是设计者的初衷(初衷只是学习如何说人话),而是在随后的代码训练、提示学习中挖掘出来的,这些能力原本就已经存在于大模型之中,它从代码、书籍、网页中学到了一些常识知识并具备了一定的推理能力。

人类问问题的方式对于LLM而言不是最自然的理解方式,为了让ChatGPT给出的答案更贴近人类的问题、更符合公序良俗,它在发布前采取了一种叫做“基于人类反馈的强化学习”(ReinforcementLearningbyHumanFeedback,RLHF)的训练策略。简单来说,就是花钱找人给模型提出各种可能的问题,并对模型反馈的错误答案进行惩罚、对正确的答案进行奖励,从而实现提升ChatGPT回复质量的目的。

光有海量的、无标注的数据还不够,还要有少量的、高质量的标注数据才行。前者用来训练语言模型,让它学会说人话,后者用来训练对话模型,让它别啥都瞎说,比如:回答中不能含有种族歧视和性别歧视的内容,拒绝回答不当问题和知识范围之外的问题。

简单地回答:极大概率是不能的。起码在现阶段,这不是招几个人、花些钱就能做成的事,能训出ChatGPT的人可能比做出4纳米芯片的人还要少。

算力,也就是数据的处理能力,与数据、算法,并称为AI三要素。据估计,仅仅训练一次GPT-3,OpenAI可是花费了460万美元。对于ChatGPT而言,支撑其算力基础设施至少需要上万颗英伟达A100的GPU,一次模型训练成本超过1200万美元。

然而,在这些必要非充分条件中,算力是最容易解决的。

模型要足够深、足够大,才能解决远距离的语义理解能力、才能产生抽象的推理能力,这些高级的基础的能力具有很好的通用性。因此,高级的能力可能只存在于大型模型中,而训练大模型,需要足够的数据量。

此外,反观中文网站的数据资源,大致占全世界总资源的1.3%。中文内容相比英文有四五十倍的差距,人工智能脱离不了人类知识的土壤,这方面的先天条件不是短期内花钱或凭一己之力就能解决的。

ChatGPT公开出来的少量材料中,披露出了一系列训练技巧,比如:代码训练、指令微调、上下文学习等。更多的细节目前还没有公开,即便公开了也不见得是全部,即便全部公开也未必能重现。因为整个过程链条非常长,有大量的工程技巧在里边。俗话说魔鬼藏在细节里,具体的实现和工程技巧才是重头戏,好比刚学做菜的人,即便有足够的食材,照着菜谱也不可能做出一套满汉全席。

今年2月初,谷歌已向人工智能初创公司Anthropic投资约3亿美元,并获得该公司10%股份。该公司2021年创立,目前团队规模仅在40人左右,初创期的11位核心成员都曾经参与过GPT-2、GPT-3模型的研发。可见,业界对于人才的重视程度以及人才的奇缺性。

ChatGPT似乎打破了人们关于AI模型的一项固有认知:“通用的不好用,好用的不通用。”

大模型革命的一个关键趋势就是,通用大模型比专用小模型表现地更好。对于定位在垂直细分领域里的初创公司来说,既不能自研出大模型,效果上又失去了竞争力,因此是不是就没有活路了?

我觉得不是,ChatGPT的能力可以分成chat和GPT两部分来看,即上层的对话和图片的生成能力、底层的语言和推理能力。

在ToC类内容消费市场,未来可能会出现大量的、碎片化的AIGC应用,比如生成头像、诗文、甚至短视频等,重点是在有趣的细分场景里发挥创造性和想象力。在消费电子市场里,有对话能力的智能音箱、智能家电在去年的出货量有所下滑,借助更强的对话能力,也许还能挽回一些颓势。

在ToB类企业服务市场,AI不再只是替代简单重复性的体力劳动,还将替代简单规律性的脑力劳动,并在逻辑复杂的脑力劳动中辅助员工提升工作效率。简单的脑力劳动,比如营销文案撰写、初级程序员和插画师等。复杂的脑力劳动,可能会围绕具体业务的推理能力,以虚拟工作助手的形式出现。

对于处于ToB赛道的科技公司而言,中间层可能会越来越薄,对于行业KnowHow的积累会成为越来越重要的竞争门槛。这其中可能会遇到很多挑战,比如:如何在使用强大的通用模型和构建自己的垂直模型之间进行迭代,如何将通用无标注的大规模数据和领域小规模知识相结合,如何将领域事实知识注入到LLM中使得LLM的输出内容可控。在目前的研究范式下,领域内高质量的标注数据+领域推理能力,两者如何形成“飞轮效应”是非常重要的问题。

说了这么多,总结一下重点,不管你能记住多少,起码下次在电梯里遇到老板或者在饭局上遇到同学时,在聊起ChatGPT的时候,你能插上几句话。

最后,对于想进一步深入了解技术细节的同学,推荐一下延展阅读材料:

张杰,中关村科金技术副总裁

天津大学计算机专业博士。荣获第十届吴文俊人工智能技术发明一等奖。著有《知识中台:数字化转型中的认知技术》、《“新一代人工智能创新平台建设及其关键技术丛书”—知识图谱》两部技术专著。研究领域:知识工程、自然语言处理等技术领域拥有丰富的理论和实践经验。主持或参与国家级课题八项,并发表学术论文十余篇、拥有专利一百余项。主导开发了推荐引擎、知识问答系统、客服机器人、大数据风控平台、行业知识图谱等多项商业化系统,累计产值数亿元。

THE END
1.CHATGPT和算力有什么关系算力对于CHATGPT的训练、模型规模和推理速度都有一定的影响。较大的算力可以提供更快、更高质量的训练http://www.hlwwhy.com/ask/6709750.html
2.今天chatgpt一天都不行,算力还是不够啊今天chatgpt一天都不行,算力还是不够啊 全部讨论 在市场里价值投机 52分钟前 a股ai股价已经反应了,美股有点迟钝还没跟上 我爱水煮鱼 41分钟前 刀哥用付费的还是免费的 守正1997 57分钟前 豆包也是,今天这些平台出什么问题?被攻击了? 贝塔猪 今天22:05 https://xueqiu.com/9089343523/314558213
3.ChatGPT+电力:引领智能的革命ChatGPT算力和算法取得了哪些突破?ChatGPT究竟给企业带来哪些商业价值和市场机会?ChatGPT有哪些优势与不足?ChatGPT有哪些典型应用场景?ChatGPT应用遇到哪些数据安全、知识产权、风险管控的挑战?ChatGPT将给电力行业带来哪些发展机会与挑战?ChatGPT+电力将会带来哪些应用场景?数字化、智能化与电力能源化革命将会带来哪些http://www.boraid.cn/training/training_show_221954.html
4.ChatGPT的爆火,可离不开算力!戴尔科技集团chatgpt人工智能顶部 首页首页 ChatGPT的爆火,可离不开算力!戴尔科技集团 chatgpt 人工智能 2024-11-27 00:00 · 0次播放 发布于:江西省 拳击那点事 +订阅 +1 评论 全部 还没有人评论过,快来抢首评 写评论相关推荐 查看更多精彩内容 https://m.sohu.com/a/830759879_100114195
5.ChatGPT价格里掩盖的算力分布秘密新程序员【导读】当前,大语言模型的商业化持续进行,本文聚焦这一变革背景下的 ChatGPT 定价机制,深入剖析其核心技术内涵。通过细致研究 ChatGPT-3.5 turbo 采用的 Decode-Only 架构,作者系统地探讨了模型在接收到输入提示并生成相应输出的过程中,如何差异化利用 GPU 算力资源,进而阐明了支撑该定价策略的独特技术原理。 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/136265725
6.ChatGPT行业报告:算力.pptx演讲人:日期:ChatGPT行业报告:算力目录引言ChatGPT行业概述算力技术发展算力在ChatGPT中应用算力市场需求与供给算力基础设施建设与运维算力成本、效益及投资回报结论与展望01引言本报告旨在深入探讨ChatGPT行业中的算力问题,分析其对ChatGPT技术发展和应用的影响,以及未来算力需求和趋势。目的随着人工智能技术的快速发展,Chathttps://www.renrendoc.com/paper/362740549.html
7.ChatGPT正在榨干算力,如何打赢这场算力攻坚战?互联网除了架构创新,芯片本身的升级迭代也非常重要。作为基石的底层芯片,需要足够“大”,AI大算力应用才能高楼平地起。 (ChatGPT研究框架 图源:浙商证券) 那么AI大算力说的“大”到底是多大? 以2020年发布的GPT3预训练语言模型为例,采用的是2020年最先进的英伟达A100 GPU,算力达到624 TOPS。2023年,随着模型预训练阶段模型https://news.iresearch.cn/yx/2023/03/463121.shtml
8.千亿巨头发布能力超ChatGPT?算力硬件由华为提供算力硬件由华为提供 摘要 【千亿巨头发布 能力超ChatGPT?】“俗话说‘男子汉大丈夫宁死不屈’,但是俗话又说‘男子汉大丈夫要能屈能伸’,请问这两句话怎么理解?”“如果一个小伙子跟女朋友吵架了,他应该宁死不屈还是能屈能伸?”科大讯飞大模型对上述有些刁钻的问题做出了“高情商”回答:星火大模型不偏不倚地回复https://finance.eastmoney.com/a/202305072714140597.html
9.ChatGPT服务器,深度拆解ChatGPT算力需求场景包括预训练、Finetune及日常运营。从ChatGPT实际应用情况来看,从训练+推理的框架出发,我们可以将ChatGPT的算力需求按场景进一步拆分为预训练、Finetune及日常运营三个部分: 1)预训练:主要通过大量无标注的纯文本数据,训练模型基础语言能力,得到类似GPT-1/2/3这样的基础大模型; https://www.51cto.com/article/747956.html
10.ChatGPTPlus突然停售,业内:微软算力不够ChatGPT Plus突然停售,业内:微软算力不够 钛媒体App 4月6日消息, ChatGPT官网停止Plus付费项目的购买。在升级界面,OpenAI表示“因需求量太大暂停了升级服务”。业内分析是微软算力不够了,运算越来越慢,所以暂缓注册。(中国基金报) *该内容仅供参考,不构成投资建议。请谨慎对待。https://m.tmtpost.com/nictation/6477388.html
11.杨元庆谈ChatGPT:需要普慧算力作为基础设施新浪科技讯 2月24日上午消息,在联想创投CEO年会上,联想集团董事长兼CEO杨元庆表示,ChatGPT火爆全球,其背后所需要的普慧算力基础设施恰好是联想已经布局多年的强项。 杨元庆称,打造“技术联想”一直是联想的创业初心。面对全球政经环境的变幻,面对技术和产业周期的日新月异,坚持用技术创新驱动发展,才能增强穿越周期的续https://laoyaoba.com/n/850108
12.智慧能源系列专题报告(一):算力篇:从CHATGPT看算力增长对电力行业的影本篇报告分析了ChatGPT 引发人工智能算力增长背后数据中心(IDC)需求增长对电力市场的影响,以及“双碳”和“东数西算”背景下“绿色IDC+一体化清洁能源基地”协同发展的必然性和可行性。 人工智能兴起、数字经济发展带动算力增长,智能算力、IDC 用电需求增长可观:ChatGPT 再次引发全世界对人工智能关注热潮,人工智能发展https://stock.hexun.com/2023-03-23/208058233.html
13.为你喝彩ChatGPT火爆?原来背后有强大的算力芯片!为你喝彩|ChatGPT火爆?原来背后有强大的算力芯片!北京卫视为你喝彩 2023-05-17 11:07:18 + 关注浏览1071次 打开App阅读全文 公安部:迅速查明珠海驾车冲撞行人案件,依法严惩凶手 三部门:因地制宜将酒店电视终端纳入当地消费品以旧换新补贴范围 中央气象台发布大雾黄色预警:北京河北等地部分地区有大雾 三部门有关https://m.btime.com/item/router?gid=47284duldr69tb84utj299b2358