GPT对产品界面的影响爱范儿

作为大语言模型(largelanguagemodel,LLM)的一种,OpenAI的GPT(GenerativePre-TrainedTransformer)模型展现了今天最接近人类的机器智能,GPT最重要的特征是通过使用万亿级的参数和全互联网的文本数据,使计算机模型产生了智能涌现(Emergence)。物理学的涌现一般指混沌现象里,反复出现某些稳定的模式,涌现是理解复杂的自然现象中最具挑战的一类。从最近OpenAI的掌门人SamAltman和首席科学家Ilya的访谈中可以了解,如何驯服涌现出智能的大语言模型,以及如何让它稳定安全地服务人(Alignment,对齐),OpenAI也没有完全掌握有效的调试方法,GPT从某种程度上还是个黑盒。

我们有必要问,为什么一个语言模型会改变世界,ChatGPT确实更会听话,也更会说话了,但一个智能文本交互工具有什么了不起?原因有两个:1.人工智能有多种模态(Modal),不同模态间的研究,相互渗透也相互竞争,性能最出色的模态会最先定义未来AI应用的轨迹,ChatGPT展现的文本模态智能,会在近期AI的发展中占主导地位。2.文本作为人类社会的入口非常重要。

第1点,多模态。以图像作为模态的人工智能,已发展了多年,在图像识别和自动驾驶上屡建奇功的计算机视觉(ComputerVision)是人工智能的另一个入口。过去十几年三大会CVPR/ICCV/ECCV的论文大爆发,即使去掉水货也是图像智能大爆炸的缩影。而OpenAI的出现扭转了图形智能在AI应用中的瞩目地位,甚至发展轨迹——当Meta发布Segment-Anything(分割图片中不同物体的图形算法),因模型表现出类似GPT在文本模态上强大的零成本迁移能力,有人也惊呼传统CV已死(夸张了)。

ChatGPT在文本模态上的影响力无需赘述,它超越了简单的科研价值,重新定义文本模态的智能和商业潜力。OpenAI的产品DALL·E,也提供了文本模态外的图像智能。开源的StableDiffusion和闭源的Midjourney作为文生图领域的霸主,更贡献了无数个创造力行业的「死亡」预警。总而言之,AI在文本和图像两个模态上相互渗透,并在相互竞争中推动智能的边界。

第2点,文本模态是人类社会的入口。可以参考尤瓦尔·赫拉利(《人类简史》作者)在TheEconomist专访中的观点:他认为,语言作为人类社会的操作系统,人工智能已经黑入(Hacked)这个系统,AI会通过改变语言这个操作系统本身,彻底改变人类历史。大模型对人类行为和社会反馈的调度,会因为语言系统的入侵而产生巨大影响。

1.2LLM的成本训练一个真正称得上大的大模型到底需要多少钱?

伊隆·马斯克在最近一次访谈中估算,训练一个GPT-5等级的模型,可能用到30000-50000块H100芯片,使用最新的技术架构,最顶级的AI研究人员(参考OpenAI,约200多人)。最后马斯克给出了大模型的起步成本。对比最近大模型Startup的估值,这个数字很有参考价值:2.5亿美元

综合说,股价可以不急提振,前路漫漫不急创新,大模型不是新应用,它是革命本身。

我也有一些观点。晚一个月把电灯泡拿出来和早一个月的区别很大,区别在于你会成为爱迪生还是某个无人知晓的第二个发明灯泡的人。但是,大模型虽然能力惊人,但驯化改良的挑战依然艰巨。我们正处于刚造出飞机时的挑战期,想安全稳定地飞行,还需要许多失败的血汗教训理解红线在哪里。OpenAI推出了Plugin插件,是潜在的一种产品方式,但Plugin目前的商业表现并不清晰,Plugin预期引发的AppStore时刻也不明朗,如何把GPT变成有商业价值的产品仍是未知数。这么多年,鹅厂作为后发优势(secondmoveradvantage)的弄潮儿,拥有微创新的杀手锏,发挥自己长处也未必不合理。

UserInterface,用户交互界面,简称UI。今天所有人都生活在UI的海洋里,不少互联网人认为UI≈网页Web+App设计,这种理解极大限制了UI的内涵。UI更专业的定义应该叫做HCI,Human-ComputerInterface,人机交互界面。在过去将近一个世纪的发展中,人们根据当时机器的计算能力与智能水平,设计了几代特征明显的UI。我们正处在GUI向NLI的过渡阶段。

上图:一叠打孔卡,上面存放着一段程序。下图:1950年美国职员正在制作打孔卡片,卡片上存储着一段美国人口调查数据。

乔布斯从施乐公司(Xerox)「偷来」的用户图形化界面GUI,掀起了个人电脑革命。

这层界面的影响力极大,在GUI上诞生了世界上第一款杀手级应用,Macintosh的电子表格VisiCalc,也是Excel的前身。

直到今天,Mac优美流畅的UI界面依旧是最吸引用户的产品特性之一。

说一句话:「Abeautifullivingroomconceptrender.」「生成一个漂亮的起居室概念渲染。」

4.TexttoAction文生行为

Adept:

Adept的目标,是通过软件自动化构建一个全能的智能助手。自然语言,将是Adept用户未来唯一需要使用的交互内容。

ThoughttoAction,从人类思维到机器行为。去年疯狂宣传的NeuroLink,可以让猴子用意念玩游戏Pong,人也可以用脑机接口操纵简单的游戏和机械假肢。现阶段,更有意义的脑机产品主要帮助残疾人控制义肢,恢复生活能力。今天的脑机技术对于我们讨论革命性的人机交互界面,还为时略早。

-UI的内涵需要被扩展

机器与人的沟通需要一层交互介质,这层介质控制着人机交互中输入输出的边界。交互介质会过滤转换人类的输入,让这些千奇百怪的人类输入,对机器而言是安全可识别的;同时,机器返回的结果经过交互介质的过滤转换,对人类也是安全可用、有价值的。

这层连接人与机器的交互介质,才是UI的定义。

过去二十年的互联网革命中,GUI以按钮、拖拽、滑轮、手指缩放、多指操作、晃动、翻转、硬件按钮…等有限的操作形式,规范了人想对机器做的一切输入方式,这个经过标准化的input被机器理解,然后返回成标准化的output。PC和移动互联网革命让UI和GUI画了等号,但事实上UI远比GUI现有的交互方式丰富得多。

GPT的出现直接破坏了这个平衡,机器变聪明对产品最重要的影响,就是计算机对自然语言的容错性大大提升,它不再需要一个只能接收极有限输入的过滤器,就能听懂人们日常会说的,甚至夹杂着各种逻辑、暗示、讽刺、错误的自然语言。AI对自然语言的容错性提高,一定会破坏当下以GUI作为UI的交互层:

1.用户体验(UX)大转换。用户从过去以手指、鼠标的「点击、滑动、拖拽」为主要方式的交互,转变为自然语言为接口的交互。

2.现在的GUI会消失吗?不会,两个原因。第一,当模型不够准确,或AI产品化不成熟时,GUI优雅的外观和体验依然对用户有吸引力,以及用手指、鼠标做交互的成本,远比自然语言低。第二,参考UI发展的不同阶段,黑乎乎的命令行落伍了吗?没有,GUI不会立刻消失。如果使用上个时代的交互界面更高效,即使使用门槛较高,这种交互依然会存在。

3.命令行工具(CLI)依然是对计算机进行深度操作最高效的方式。在智能未来,如果你需要深度操作一项应用,可能会有人说:把你的GUI打开,就像今天程序员说:把你的terminal打开。

5.最优秀的计算机工程师,对机器的深度理解和深度操作能力无法被替代,但也只有最优秀的那群工程师能生存下来。

从下面这个图能更清楚地看到,为什么GPT会引发产品UI的巨大变动?因为过去的机器语言一直非常苛刻,容错性极低。编程语言中一个标点错误都能导致整个程序无法运行。而大模型带来的最重要的魔力就是显著提高机器对人类自然语言(NaturalLanguage,NL)的容错性。总结下来,未来的自然语言交互界面以文字输入框为起点,以多模态的高动态交互为目标。

使用门槛:离人类越近,使用门槛越低。命令行CLI>图形界面GUI>自然语言NLI>脑机接口BCI

操作效率:离机器越远,控制效率越低。命令行CLI>图形界面GUI>自然语言NLI>脑机接口BCI

-NLI的演化

Visionpro能提供什么模态:三维的交互,手势、重力、旋转、语音文字、静态图像、实时视频。

·未来:与人类对话只是大模型理解世界的起点,用LLM作为大脑,摄像机做眼睛,机械臂做四肢,是AI与物理世界交互的新界面。

-Timberter——一款已存在多年、基于视觉算法的「清点木材」应用。如果我们给它加上大模型的推理能力,可执行搬运的机械臂,会发生什么?

Forbes近年来会评选年度最有潜力的50家AI公司。与往年不同,今年的AI公司名单不仅来自北美地区,而是从来自全球800多个公司中选出最具潜力和估值的50个,来自美国、加拿大、以色列、英国和日本。

使用场景主要集中在C端:生成式Text、Audio、Image、Video+搜索Search+自动化Copilt。B端应用多以整合为主,可以是具体的行业垂类:法律、医药健康、学术研究(生物、物理、数学)、智能分析。此外,还有AI基础设施:向量数据库、大模型AIModel、AI安全、开发运维DevOps、自动化Copilt。

整合成本=AI产品开发成本+用户在AI应用完成过去同等质量工作的使用成本

举两个例子说明整合成本的意义。

正面:AIGC生成游戏设计的填充素材/物料。

如果使用AI工具生成此类非重要的素材,最后由原本就经验丰富设计师调整,想达到过去同等质量的结果,是完全可行的。

AI生成非关键素材的整合成本<<<传统物料的准备成本

AIGC在游戏物料场景下值得被推动。

当然,随着模型表现的进步,甚至市场手段和市场偏好发生变化(精准营销,定制偏好)。现在的反面案例会变成正面案例,正面也可能成反面。

大模型会推动两类产品的发生。一种围绕AI能力打造全新的产品,可以称之为AINaive/AI原生。另一种是在传统软件上增加AI功能,进行智能化改造,可以叫AI升级/AIUpgrade。这两种方式会形成不同的产品UI。

整合AI产品中最重要的因素:

1.AI模型的性能表现2.开发运维AI产品的成本+用户使用AI应用的使用成本(整合成本)。

AI应用的构成:基础设施Infra+中间件Middleware+应用Application(这些定义可以相互重叠)

-搜索引擎:NewBing、GoogleBard

-聊天问答:ChatGPT、Jasper、各类智能聊天应用

-文生图片:Midjourney、StableDiffusion

-文生视频:Runway

-自动化:Adept

……

大模型是一个基础模型(FoundationModel),拥有最广泛的知识,展现出强大的泛化能力(Generalization),但在精确场景下的准确率不足。这也是如何应用大模型的主要挑战。中间件的意义就在于整理专业场景的知识,拓展模型的知识库,提高AI精度,最后提供方便可用的接口连接上层应用。因为自然语言界面成本很低,很多中间件直接提供了应用界面,一个聊天窗口,比如第一个AgentGPT。

类似的中间件还有很多,不一一列举。

-模型Model

大模型:OpenAIGPT、GoogleBard、Anthropic、文言一心、百川智能……

开源模型:

-数据库Database

-编译运行Compilation&DevOps

如何在本地设备和低端设备上运行大模型,是分发AI能力的一个障碍。

使用体验如下。在本地环境中通过conda安装mlc-chat-cli-nightly工具,从HuggingFace下载Model,在本地Mac上运行大模型进行问答:

在本地移动设备上运行大模型:

大模型:闭源大模型如GPT,挑战在于模型场景化、数据安全、准确率、调试效率、PromptEngineering、工程接口的对接。自部署开源模型,不属于严格意义的大模型,挑战在于速度,性能,基准表现。

中间件:连接模型层与应用层,提供特定领域的知识外挂;拓展应用场景,快速提供应用接口;降低开发和运维成本。

程昆

下一篇2024-01-1714:55

上一篇2024-01-1708:44

AllcontentismadeavailableundertheCCBY-NC4.0fornon-commercialuse.Commercialuseofthiscontentisprohibitedwithoutexplicitpermission.

THE END
1.chatgpt无法打开登录页面我开始怀疑是浏览器或设备的问题。我在不同的浏览器中尝试打开登录页面,包括Chrome、Firefox和Edge,但都没有成功。我还用不同的设备,比如手机和平板电脑,尝试打开登录页面,但结果依旧一样。这让我相信问题不在于浏览器或设备。 我开始考虑其他可能的因素。可能是ChatGPT的服务器出现故障,导致无法访问登录页面。为了确http://chatgpt.cmpy.cn/article/2381101.html
2.ChatGPT新域名亮相,更短更吸睛openai搜索引擎知名企业谷歌打开网易新闻 查看精彩图片 你还记得谷歌购买域名ai.com并将其指向 Gemini 吗?嗯,似乎谷歌不是唯一为其人工智能聊天机器人购买简单网址的公司。OpenAI 刚刚为 ChatGPT 获得了一个新域名,这个域名甚至比chat.openai.com 还要短。现在你可以通过使用chat.com访问 ChatGPT。 ChatGPT 出于某种原因有了一个新域名 像Chhttps://m.163.com/dy/article/JMFIIEJS05568E4N.html
3.你的ChatGPT变傻了吗?ChatGPT降智解决方法汇总ChatGPT会降智这个话题,也不是一天两天了,不管是国内还是海外,都有不少人在吐槽。而且离谱的是,即使你是Plus/Pro用户,你手里的人工智能依旧可能分分钟变成人工智障。 一、ChatGPT降智的原因 通常有那么几种原因: 1.OpenAI的算力资源不足 每当ChatGPT发布了新的模型或者功能,大量的用户涌入,又或者是OpenAI内部在训https://blog.csdn.net/Survivor_sl/article/details/145324602
4.安卓版ChatGPT下载保姆级教程来了!ChatGPT1.打开ChatGPT前,先确认处于在线状态。(安卓和苹果版App的界面是一样的。)如果你的手机是国产安卓,特别是华为,屏幕上方可能会出现以下页面: ▎注:这是因为ChatGPT安卓版必须在谷歌框架下才能运行,使用时谷歌商店的版本必须是最新的,同时你的安卓系统版本越新越好。 https://www.awyerwu.com/12996.html
5.用SwiftUI开发ChatGPT应用程序(一)关于ChatGPT ChatGPT是OpenAI公司开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。 界面开发 先看看整体的界面效果: https://www.jianshu.com/p/768bbc0c68bb
6.ChatGPTPlus不限次数使用GPT4.0模型教程复制链接到浏览器打开:https://greasyfork.org/en/scripts/467317-chatgpt开启不限次数的gpt4-mobile 2、安装脚本 点击Install this script再点击安装 3、确认安装成功 会自动跳转回页面,如图所示原来的Install this script变为Reinstall version 0.3就是安装成功了。 https://m.nowcoder.com/discuss/495653130030395392
7.chatgpt无法复制mob6454cc6d1c0b的技术博客解决方法二:源代码界面复制 在需要复制文字的界面鼠标右键选择“查看网页源代码”或者使用快捷键Ctrl+U,打开源代码界面,在源代码界面找到自己要复制的内容复制即可! 注意:这里有一个问题: 浏览器的查看源代码和F12查看到Html代码不一样? 浏览器的右键查看源代码看到的是网页文件最原始的代码,没有经过js运算过;F12查https://blog.51cto.com/u_16099247/11412167
8.标题:初次使用CHATGPT登录界面无反应:解决方法分享对于初次使用CHATGPT登陆界面无反应的用户而言,通过检查网络连接、清除浏览器缓存、重新加载页面、更换浏览器或联系技术支持,往往能够解决这一问题。CHATGPT作为一款强大的人工智能助手,希望为用户提供卓越的服务体验,同时也倾听用户的反馈,不断改进与完善。让我们一起享受CHATGPT的便利和智能吧! http://chatgpt.kuyin.cn/article/3603899.html
9.ChatGPT为ChatGPTAPI提供了一个轻快好用的Web图形界面不关注关注所有动态仅关注版本发行动态关注但不提醒动态 1Star0Fork24 将神/Chuanhu-ChatGPT forked fromGitee 极速下载/Chuanhu-ChatGPT 确定同步? 同步操作将从Gitee 极速下载/Chuanhu-ChatGPT强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!! https://portrait.gitee.com/JiangShen/Chuanhu-ChatGPT
10.25个最佳ChatGPT替代品但这也带来了一个很大的弊端,ChatGPT的服务器经常被用户超载。这使得用户无法使用这个极其有用和有趣的人工智能机器人。如果你是发现ChatGPT瘫痪的人之一,现在你希望尝试其他类似的服务,你就来对地方了。在本指南中,我们列出了各种你应该尝试的ChatGPT替代品。因此,不要再拖延了,在你的浏览器上打开其他标签,让https://www.wbolt.com/best-chatgpt-alternatives.html
11.奥特曼爆火AI硬件遭差评,ChatGPT版iPhone上市即翻车传说中要取代智能手机的首款AI硬件Ai Pin,在万众瞩目中面世了!然而大家试用后,给出了一边倒的差评:操作复杂学不会,3分钟后过热关机,太慢、太笨、没反应,室外压根看不清……看来,智能手机要被淘汰,还得再等一阵子。 万众瞩目的ChatGPT版iPhone,终于面世了! https://36kr.com/p/2731450142288388
12.ChatGPT爆火一起来看东风风神AI黑科技的N种打开方式最近,又一个“顶流”ChatGPT爆红出圈。AI(人工智能)再掀热潮,火爆全球。其实,AI黑科技早已陪伴在我们左右,东风风神WindLink人工智能车机系统,它能听,会说,更懂你。一起来看看东风风神AI黑科技的N种打开方式。 东风风神WindLink X 2.0人工智能车机系统,究竟有何过人之处? https://auto.cri.cn/chinanews/20230214/268030af-2332-17fc-a4d9-de3ed43ac327.html
13.ChatGPT.好友ChatGPT电脑客户端学AI很简单ChatGPT.好友是一款基于OpenAI的GPT模型和谷歌的gemini-pro模型的AI插件,支持语音对话、AI绘画、AI音乐等功能。目前用已有超20万用户!本教程将详细介绍如何安装和使用这款插件。 用户界面 安装步骤 先下载一款utools效率工具,呼之即来,即用即走,下载地址:uTools下载然后就可以在uTools里来使用该插件了! https://www.yizz.cn/sites/6152.html