作为大语言模型(largelanguagemodel,LLM)的一种,OpenAI的GPT(GenerativePre-TrainedTransformer)模型展现了今天最接近人类的机器智能,GPT最重要的特征是通过使用万亿级的参数和全互联网的文本数据,使计算机模型产生了智能涌现(Emergence)。物理学的涌现一般指混沌现象里,反复出现某些稳定的模式,涌现是理解复杂的自然现象中最具挑战的一类。从最近OpenAI的掌门人SamAltman和首席科学家Ilya的访谈中可以了解,如何驯服涌现出智能的大语言模型,以及如何让它稳定安全地服务人(Alignment,对齐),OpenAI也没有完全掌握有效的调试方法,GPT从某种程度上还是个黑盒。
我们有必要问,为什么一个语言模型会改变世界,ChatGPT确实更会听话,也更会说话了,但一个智能文本交互工具有什么了不起?原因有两个:1.人工智能有多种模态(Modal),不同模态间的研究,相互渗透也相互竞争,性能最出色的模态会最先定义未来AI应用的轨迹,ChatGPT展现的文本模态智能,会在近期AI的发展中占主导地位。2.文本作为人类社会的入口非常重要。
第1点,多模态。以图像作为模态的人工智能,已发展了多年,在图像识别和自动驾驶上屡建奇功的计算机视觉(ComputerVision)是人工智能的另一个入口。过去十几年三大会CVPR/ICCV/ECCV的论文大爆发,即使去掉水货也是图像智能大爆炸的缩影。而OpenAI的出现扭转了图形智能在AI应用中的瞩目地位,甚至发展轨迹——当Meta发布Segment-Anything(分割图片中不同物体的图形算法),因模型表现出类似GPT在文本模态上强大的零成本迁移能力,有人也惊呼传统CV已死(夸张了)。
ChatGPT在文本模态上的影响力无需赘述,它超越了简单的科研价值,重新定义文本模态的智能和商业潜力。OpenAI的产品DALL·E,也提供了文本模态外的图像智能。开源的StableDiffusion和闭源的Midjourney作为文生图领域的霸主,更贡献了无数个创造力行业的「死亡」预警。总而言之,AI在文本和图像两个模态上相互渗透,并在相互竞争中推动智能的边界。
第2点,文本模态是人类社会的入口。可以参考尤瓦尔·赫拉利(《人类简史》作者)在TheEconomist专访中的观点:他认为,语言作为人类社会的操作系统,人工智能已经黑入(Hacked)这个系统,AI会通过改变语言这个操作系统本身,彻底改变人类历史。大模型对人类行为和社会反馈的调度,会因为语言系统的入侵而产生巨大影响。
1.2LLM的成本训练一个真正称得上大的大模型到底需要多少钱?
伊隆·马斯克在最近一次访谈中估算,训练一个GPT-5等级的模型,可能用到30000-50000块H100芯片,使用最新的技术架构,最顶级的AI研究人员(参考OpenAI,约200多人)。最后马斯克给出了大模型的起步成本。对比最近大模型Startup的估值,这个数字很有参考价值:2.5亿美元
综合说,股价可以不急提振,前路漫漫不急创新,大模型不是新应用,它是革命本身。
我也有一些观点。晚一个月把电灯泡拿出来和早一个月的区别很大,区别在于你会成为爱迪生还是某个无人知晓的第二个发明灯泡的人。但是,大模型虽然能力惊人,但驯化改良的挑战依然艰巨。我们正处于刚造出飞机时的挑战期,想安全稳定地飞行,还需要许多失败的血汗教训理解红线在哪里。OpenAI推出了Plugin插件,是潜在的一种产品方式,但Plugin目前的商业表现并不清晰,Plugin预期引发的AppStore时刻也不明朗,如何把GPT变成有商业价值的产品仍是未知数。这么多年,鹅厂作为后发优势(secondmoveradvantage)的弄潮儿,拥有微创新的杀手锏,发挥自己长处也未必不合理。
UserInterface,用户交互界面,简称UI。今天所有人都生活在UI的海洋里,不少互联网人认为UI≈网页Web+App设计,这种理解极大限制了UI的内涵。UI更专业的定义应该叫做HCI,Human-ComputerInterface,人机交互界面。在过去将近一个世纪的发展中,人们根据当时机器的计算能力与智能水平,设计了几代特征明显的UI。我们正处在GUI向NLI的过渡阶段。
上图:一叠打孔卡,上面存放着一段程序。下图:1950年美国职员正在制作打孔卡片,卡片上存储着一段美国人口调查数据。
乔布斯从施乐公司(Xerox)「偷来」的用户图形化界面GUI,掀起了个人电脑革命。
这层界面的影响力极大,在GUI上诞生了世界上第一款杀手级应用,Macintosh的电子表格VisiCalc,也是Excel的前身。
直到今天,Mac优美流畅的UI界面依旧是最吸引用户的产品特性之一。
说一句话:「Abeautifullivingroomconceptrender.」「生成一个漂亮的起居室概念渲染。」
4.TexttoAction文生行为
Adept:
Adept的目标,是通过软件自动化构建一个全能的智能助手。自然语言,将是Adept用户未来唯一需要使用的交互内容。
ThoughttoAction,从人类思维到机器行为。去年疯狂宣传的NeuroLink,可以让猴子用意念玩游戏Pong,人也可以用脑机接口操纵简单的游戏和机械假肢。现阶段,更有意义的脑机产品主要帮助残疾人控制义肢,恢复生活能力。今天的脑机技术对于我们讨论革命性的人机交互界面,还为时略早。
-UI的内涵需要被扩展
机器与人的沟通需要一层交互介质,这层介质控制着人机交互中输入输出的边界。交互介质会过滤转换人类的输入,让这些千奇百怪的人类输入,对机器而言是安全可识别的;同时,机器返回的结果经过交互介质的过滤转换,对人类也是安全可用、有价值的。
这层连接人与机器的交互介质,才是UI的定义。
过去二十年的互联网革命中,GUI以按钮、拖拽、滑轮、手指缩放、多指操作、晃动、翻转、硬件按钮…等有限的操作形式,规范了人想对机器做的一切输入方式,这个经过标准化的input被机器理解,然后返回成标准化的output。PC和移动互联网革命让UI和GUI画了等号,但事实上UI远比GUI现有的交互方式丰富得多。
GPT的出现直接破坏了这个平衡,机器变聪明对产品最重要的影响,就是计算机对自然语言的容错性大大提升,它不再需要一个只能接收极有限输入的过滤器,就能听懂人们日常会说的,甚至夹杂着各种逻辑、暗示、讽刺、错误的自然语言。AI对自然语言的容错性提高,一定会破坏当下以GUI作为UI的交互层:
1.用户体验(UX)大转换。用户从过去以手指、鼠标的「点击、滑动、拖拽」为主要方式的交互,转变为自然语言为接口的交互。
2.现在的GUI会消失吗?不会,两个原因。第一,当模型不够准确,或AI产品化不成熟时,GUI优雅的外观和体验依然对用户有吸引力,以及用手指、鼠标做交互的成本,远比自然语言低。第二,参考UI发展的不同阶段,黑乎乎的命令行落伍了吗?没有,GUI不会立刻消失。如果使用上个时代的交互界面更高效,即使使用门槛较高,这种交互依然会存在。
3.命令行工具(CLI)依然是对计算机进行深度操作最高效的方式。在智能未来,如果你需要深度操作一项应用,可能会有人说:把你的GUI打开,就像今天程序员说:把你的terminal打开。
5.最优秀的计算机工程师,对机器的深度理解和深度操作能力无法被替代,但也只有最优秀的那群工程师能生存下来。
从下面这个图能更清楚地看到,为什么GPT会引发产品UI的巨大变动?因为过去的机器语言一直非常苛刻,容错性极低。编程语言中一个标点错误都能导致整个程序无法运行。而大模型带来的最重要的魔力就是显著提高机器对人类自然语言(NaturalLanguage,NL)的容错性。总结下来,未来的自然语言交互界面以文字输入框为起点,以多模态的高动态交互为目标。
使用门槛:离人类越近,使用门槛越低。命令行CLI>图形界面GUI>自然语言NLI>脑机接口BCI
操作效率:离机器越远,控制效率越低。命令行CLI>图形界面GUI>自然语言NLI>脑机接口BCI
-NLI的演化
Visionpro能提供什么模态:三维的交互,手势、重力、旋转、语音文字、静态图像、实时视频。
·未来:与人类对话只是大模型理解世界的起点,用LLM作为大脑,摄像机做眼睛,机械臂做四肢,是AI与物理世界交互的新界面。
-Timberter——一款已存在多年、基于视觉算法的「清点木材」应用。如果我们给它加上大模型的推理能力,可执行搬运的机械臂,会发生什么?
Forbes近年来会评选年度最有潜力的50家AI公司。与往年不同,今年的AI公司名单不仅来自北美地区,而是从来自全球800多个公司中选出最具潜力和估值的50个,来自美国、加拿大、以色列、英国和日本。
使用场景主要集中在C端:生成式Text、Audio、Image、Video+搜索Search+自动化Copilt。B端应用多以整合为主,可以是具体的行业垂类:法律、医药健康、学术研究(生物、物理、数学)、智能分析。此外,还有AI基础设施:向量数据库、大模型AIModel、AI安全、开发运维DevOps、自动化Copilt。
整合成本=AI产品开发成本+用户在AI应用完成过去同等质量工作的使用成本
举两个例子说明整合成本的意义。
正面:AIGC生成游戏设计的填充素材/物料。
如果使用AI工具生成此类非重要的素材,最后由原本就经验丰富设计师调整,想达到过去同等质量的结果,是完全可行的。
AI生成非关键素材的整合成本<<<传统物料的准备成本
AIGC在游戏物料场景下值得被推动。
当然,随着模型表现的进步,甚至市场手段和市场偏好发生变化(精准营销,定制偏好)。现在的反面案例会变成正面案例,正面也可能成反面。
大模型会推动两类产品的发生。一种围绕AI能力打造全新的产品,可以称之为AINaive/AI原生。另一种是在传统软件上增加AI功能,进行智能化改造,可以叫AI升级/AIUpgrade。这两种方式会形成不同的产品UI。
整合AI产品中最重要的因素:
1.AI模型的性能表现2.开发运维AI产品的成本+用户使用AI应用的使用成本(整合成本)。
AI应用的构成:基础设施Infra+中间件Middleware+应用Application(这些定义可以相互重叠)
-搜索引擎:NewBing、GoogleBard
-聊天问答:ChatGPT、Jasper、各类智能聊天应用
-文生图片:Midjourney、StableDiffusion
-文生视频:Runway
-自动化:Adept
……
大模型是一个基础模型(FoundationModel),拥有最广泛的知识,展现出强大的泛化能力(Generalization),但在精确场景下的准确率不足。这也是如何应用大模型的主要挑战。中间件的意义就在于整理专业场景的知识,拓展模型的知识库,提高AI精度,最后提供方便可用的接口连接上层应用。因为自然语言界面成本很低,很多中间件直接提供了应用界面,一个聊天窗口,比如第一个AgentGPT。
类似的中间件还有很多,不一一列举。
-模型Model
大模型:OpenAIGPT、GoogleBard、Anthropic、文言一心、百川智能……
开源模型:
-数据库Database
-编译运行Compilation&DevOps
如何在本地设备和低端设备上运行大模型,是分发AI能力的一个障碍。
使用体验如下。在本地环境中通过conda安装mlc-chat-cli-nightly工具,从HuggingFace下载Model,在本地Mac上运行大模型进行问答:
在本地移动设备上运行大模型:
大模型:闭源大模型如GPT,挑战在于模型场景化、数据安全、准确率、调试效率、PromptEngineering、工程接口的对接。自部署开源模型,不属于严格意义的大模型,挑战在于速度,性能,基准表现。
中间件:连接模型层与应用层,提供特定领域的知识外挂;拓展应用场景,快速提供应用接口;降低开发和运维成本。
程昆
下一篇2024-01-1714:55
上一篇2024-01-1708:44
AllcontentismadeavailableundertheCCBY-NC4.0fornon-commercialuse.Commercialuseofthiscontentisprohibitedwithoutexplicitpermission.