GPT对产品界面的影响爱范儿|chatgpt打开的界面不一样_算命

作为大语言模型（largelanguagemodel,LLM）的一种，OpenAI的GPT(GenerativePre-TrainedTransformer)模型展现了今天最接近人类的机器智能，GPT最重要的特征是通过使用万亿级的参数和全互联网的文本数据，使计算机模型产生了智能涌现（Emergence）。物理学的涌现一般指混沌现象里，反复出现某些稳定的模式，涌现是理解复杂的自然现象中最具挑战的一类。从最近OpenAI的掌门人SamAltman和首席科学家Ilya的访谈中可以了解，如何驯服涌现出智能的大语言模型，以及如何让它稳定安全地服务人（Alignment，对齐），OpenAI也没有完全掌握有效的调试方法，GPT从某种程度上还是个黑盒。

我们有必要问，为什么一个语言模型会改变世界，ChatGPT确实更会听话，也更会说话了，但一个智能文本交互工具有什么了不起？原因有两个：1.人工智能有多种模态（Modal），不同模态间的研究，相互渗透也相互竞争，性能最出色的模态会最先定义未来AI应用的轨迹，ChatGPT展现的文本模态智能，会在近期AI的发展中占主导地位。2.文本作为人类社会的入口非常重要。

第1点，多模态。以图像作为模态的人工智能，已发展了多年，在图像识别和自动驾驶上屡建奇功的计算机视觉（ComputerVision）是人工智能的另一个入口。过去十几年三大会CVPR/ICCV/ECCV的论文大爆发，即使去掉水货也是图像智能大爆炸的缩影。而OpenAI的出现扭转了图形智能在AI应用中的瞩目地位，甚至发展轨迹——当Meta发布Segment-Anything（分割图片中不同物体的图形算法），因模型表现出类似GPT在文本模态上强大的零成本迁移能力，有人也惊呼传统CV已死（夸张了）。

ChatGPT在文本模态上的影响力无需赘述，它超越了简单的科研价值，重新定义文本模态的智能和商业潜力。OpenAI的产品DALL·E，也提供了文本模态外的图像智能。开源的StableDiffusion和闭源的Midjourney作为文生图领域的霸主，更贡献了无数个创造力行业的「死亡」预警。总而言之，AI在文本和图像两个模态上相互渗透，并在相互竞争中推动智能的边界。

第2点，文本模态是人类社会的入口。可以参考尤瓦尔·赫拉利（《人类简史》作者）在TheEconomist专访中的观点：他认为，语言作为人类社会的操作系统，人工智能已经黑入（Hacked）这个系统，AI会通过改变语言这个操作系统本身，彻底改变人类历史。大模型对人类行为和社会反馈的调度，会因为语言系统的入侵而产生巨大影响。

1.2LLM的成本训练一个真正称得上大的大模型到底需要多少钱？

伊隆·马斯克在最近一次访谈中估算，训练一个GPT-5等级的模型，可能用到30000-50000块H100芯片，使用最新的技术架构，最顶级的AI研究人员（参考OpenAI，约200多人）。最后马斯克给出了大模型的起步成本。对比最近大模型Startup的估值，这个数字很有参考价值：2.5亿美元

综合说，股价可以不急提振，前路漫漫不急创新，大模型不是新应用，它是革命本身。

我也有一些观点。晚一个月把电灯泡拿出来和早一个月的区别很大，区别在于你会成为爱迪生还是某个无人知晓的第二个发明灯泡的人。但是，大模型虽然能力惊人，但驯化改良的挑战依然艰巨。我们正处于刚造出飞机时的挑战期，想安全稳定地飞行，还需要许多失败的血汗教训理解红线在哪里。OpenAI推出了Plugin插件，是潜在的一种产品方式，但Plugin目前的商业表现并不清晰，Plugin预期引发的AppStore时刻也不明朗，如何把GPT变成有商业价值的产品仍是未知数。这么多年，鹅厂作为后发优势（secondmoveradvantage）的弄潮儿，拥有微创新的杀手锏，发挥自己长处也未必不合理。

UserInterface，用户交互界面，简称UI。今天所有人都生活在UI的海洋里，不少互联网人认为UI≈网页Web+App设计，这种理解极大限制了UI的内涵。UI更专业的定义应该叫做HCI，Human-ComputerInterface，人机交互界面。在过去将近一个世纪的发展中，人们根据当时机器的计算能力与智能水平，设计了几代特征明显的UI。我们正处在GUI向NLI的过渡阶段。

上图：一叠打孔卡，上面存放着一段程序。下图：1950年美国职员正在制作打孔卡片，卡片上存储着一段美国人口调查数据。

乔布斯从施乐公司（Xerox）「偷来」的用户图形化界面GUI，掀起了个人电脑革命。

这层界面的影响力极大，在GUI上诞生了世界上第一款杀手级应用，Macintosh的电子表格VisiCalc，也是Excel的前身。

直到今天，Mac优美流畅的UI界面依旧是最吸引用户的产品特性之一。

说一句话:「Abeautifullivingroomconceptrender.」「生成一个漂亮的起居室概念渲染。」

4.TexttoAction文生行为

Adept:

Adept的目标，是通过软件自动化构建一个全能的智能助手。自然语言，将是Adept用户未来唯一需要使用的交互内容。

ThoughttoAction，从人类思维到机器行为。去年疯狂宣传的NeuroLink，可以让猴子用意念玩游戏Pong，人也可以用脑机接口操纵简单的游戏和机械假肢。现阶段，更有意义的脑机产品主要帮助残疾人控制义肢，恢复生活能力。今天的脑机技术对于我们讨论革命性的人机交互界面，还为时略早。

-UI的内涵需要被扩展

机器与人的沟通需要一层交互介质，这层介质控制着人机交互中输入输出的边界。交互介质会过滤转换人类的输入，让这些千奇百怪的人类输入，对机器而言是安全可识别的；同时，机器返回的结果经过交互介质的过滤转换，对人类也是安全可用、有价值的。

这层连接人与机器的交互介质，才是UI的定义。

过去二十年的互联网革命中，GUI以按钮、拖拽、滑轮、手指缩放、多指操作、晃动、翻转、硬件按钮…等有限的操作形式，规范了人想对机器做的一切输入方式，这个经过标准化的input被机器理解，然后返回成标准化的output。PC和移动互联网革命让UI和GUI画了等号，但事实上UI远比GUI现有的交互方式丰富得多。

GPT的出现直接破坏了这个平衡，机器变聪明对产品最重要的影响，就是计算机对自然语言的容错性大大提升，它不再需要一个只能接收极有限输入的过滤器，就能听懂人们日常会说的，甚至夹杂着各种逻辑、暗示、讽刺、错误的自然语言。AI对自然语言的容错性提高，一定会破坏当下以GUI作为UI的交互层：

1.用户体验（UX）大转换。用户从过去以手指、鼠标的「点击、滑动、拖拽」为主要方式的交互，转变为自然语言为接口的交互。

2.现在的GUI会消失吗？不会，两个原因。第一，当模型不够准确，或AI产品化不成熟时，GUI优雅的外观和体验依然对用户有吸引力，以及用手指、鼠标做交互的成本，远比自然语言低。第二，参考UI发展的不同阶段，黑乎乎的命令行落伍了吗？没有，GUI不会立刻消失。如果使用上个时代的交互界面更高效，即使使用门槛较高，这种交互依然会存在。

3.命令行工具（CLI）依然是对计算机进行深度操作最高效的方式。在智能未来，如果你需要深度操作一项应用，可能会有人说：把你的GUI打开，就像今天程序员说：把你的terminal打开。

5.最优秀的计算机工程师，对机器的深度理解和深度操作能力无法被替代，但也只有最优秀的那群工程师能生存下来。

从下面这个图能更清楚地看到，为什么GPT会引发产品UI的巨大变动？因为过去的机器语言一直非常苛刻，容错性极低。编程语言中一个标点错误都能导致整个程序无法运行。而大模型带来的最重要的魔力就是显著提高机器对人类自然语言（NaturalLanguage,NL）的容错性。总结下来，未来的自然语言交互界面以文字输入框为起点，以多模态的高动态交互为目标。

使用门槛：离人类越近，使用门槛越低。命令行CLI>图形界面GUI>自然语言NLI>脑机接口BCI

操作效率：离机器越远，控制效率越低。命令行CLI>图形界面GUI>自然语言NLI>脑机接口BCI

-NLI的演化

Visionpro能提供什么模态：三维的交互，手势、重力、旋转、语音文字、静态图像、实时视频。

·未来：与人类对话只是大模型理解世界的起点，用LLM作为大脑，摄像机做眼睛，机械臂做四肢，是AI与物理世界交互的新界面。

-Timberter——一款已存在多年、基于视觉算法的「清点木材」应用。如果我们给它加上大模型的推理能力，可执行搬运的机械臂，会发生什么？

Forbes近年来会评选年度最有潜力的50家AI公司。与往年不同，今年的AI公司名单不仅来自北美地区，而是从来自全球800多个公司中选出最具潜力和估值的50个，来自美国、加拿大、以色列、英国和日本。

使用场景主要集中在C端：生成式Text、Audio、Image、Video+搜索Search+自动化Copilt。B端应用多以整合为主，可以是具体的行业垂类：法律、医药健康、学术研究（生物、物理、数学）、智能分析。此外，还有AI基础设施：向量数据库、大模型AIModel、AI安全、开发运维DevOps、自动化Copilt。

整合成本=AI产品开发成本+用户在AI应用完成过去同等质量工作的使用成本

举两个例子说明整合成本的意义。

正面：AIGC生成游戏设计的填充素材/物料。

如果使用AI工具生成此类非重要的素材，最后由原本就经验丰富设计师调整，想达到过去同等质量的结果，是完全可行的。

AI生成非关键素材的整合成本<<<传统物料的准备成本

AIGC在游戏物料场景下值得被推动。

当然，随着模型表现的进步，甚至市场手段和市场偏好发生变化（精准营销，定制偏好）。现在的反面案例会变成正面案例，正面也可能成反面。

大模型会推动两类产品的发生。一种围绕AI能力打造全新的产品，可以称之为AINaive/AI原生。另一种是在传统软件上增加AI功能，进行智能化改造，可以叫AI升级/AIUpgrade。这两种方式会形成不同的产品UI。

整合AI产品中最重要的因素：

1.AI模型的性能表现2.开发运维AI产品的成本+用户使用AI应用的使用成本（整合成本）。

AI应用的构成：基础设施Infra+中间件Middleware+应用Application（这些定义可以相互重叠）

-搜索引擎：NewBing、GoogleBard

-聊天问答：ChatGPT、Jasper、各类智能聊天应用

-文生图片：Midjourney、StableDiffusion

-文生视频：Runway

-自动化：Adept

……

大模型是一个基础模型（FoundationModel），拥有最广泛的知识，展现出强大的泛化能力（Generalization），但在精确场景下的准确率不足。这也是如何应用大模型的主要挑战。中间件的意义就在于整理专业场景的知识，拓展模型的知识库，提高AI精度，最后提供方便可用的接口连接上层应用。因为自然语言界面成本很低，很多中间件直接提供了应用界面，一个聊天窗口，比如第一个AgentGPT。

类似的中间件还有很多，不一一列举。

-模型Model

大模型：OpenAIGPT、GoogleBard、Anthropic、文言一心、百川智能……

开源模型：

-数据库Database

-编译运行Compilation&DevOps

如何在本地设备和低端设备上运行大模型，是分发AI能力的一个障碍。

使用体验如下。在本地环境中通过conda安装mlc-chat-cli-nightly工具，从HuggingFace下载Model，在本地Mac上运行大模型进行问答：

在本地移动设备上运行大模型：

大模型：闭源大模型如GPT，挑战在于模型场景化、数据安全、准确率、调试效率、PromptEngineering、工程接口的对接。自部署开源模型，不属于严格意义的大模型，挑战在于速度，性能，基准表现。

中间件：连接模型层与应用层，提供特定领域的知识外挂；拓展应用场景，快速提供应用接口；降低开发和运维成本。

程昆

下一篇2024-01-1714:55

上一篇2024-01-1708:44

AllcontentismadeavailableundertheCCBY-NC4.0fornon-commercialuse.Commercialuseofthiscontentisprohibitedwithoutexplicitpermission.

THE END

GPT对产品界面的影响爱范儿

ChatGPT中文语言环境配置与设置详细攻略指南

ChatGPT网页版免费版与Pro版的功能对比chatgpt注册

ChatGPT为啥用不了，怎么解决DLZ123独立站导航

ChatGPT的使用方式未来展望和投资机会虽然ChatGPT已经被许多人熟知，但是每天还是有不少朋友私信询问我如何使用它，我今天会在这篇文章中详细描述如何使用Ch...

《花雕学AI》14：免费打开就可用，ChatGPT国内12个镜像站盘点与测试

chatgpt聊天界面在哪里chatgpt有多能聊天娱乐频道

为什么今天出现了ChatGPT？往后还会发生什么？

GPT对产品界面的影响爱范儿

ChatGPT开始被“疯狂吐槽”了界面新闻·JMedia

chatgpt怎么进入对话界面

像用iPhone一样用ChatGPT？就从今天开始咯南方+

ChatGPT最全的使用方法，居然可以绘画，画个老虎栩栩如生开心电脑网

OpenAIChatGPT与GoogleGemini特性深度对比分析

chatgpt3.5跟4.0差距很大吗，chatGPT4.0对比3.5真的香吗

高效ChatGPT交流指南：GPTs搭建的全面教程

大陆国内怎么打开和注册chatgpt附网络环境搭建咕咕驴策略

大模型工具学习探索

关于ChatGPT的五个最重要问题

无需魔法，本地运行ChatGPT（内附安装包和教程）AI&chatGPT长臂猿

无需魔法，本地运行ChatGPT（内附安装包和教程）AI&chatGPT长臂猿