ChatGPT重磅更新!可以通过图片和语音命令交互

澎湃新闻消息,OpenAI在其官网宣布,目前正在推出ChatGPT的新版本,除了通过常见的文本框交互外,现在它正在学会以新的方式理解人类的问题,比如通过大声说话或者上传一张图片。

随着越来越多的人使用语音控制和图像搜索,并且ChatGPT越来越接近成为一个真正多模式、有用的虚拟助手,维持住安全护栏会变得越来越困难。

OpenAI在其官网宣布,ChatGPT现在可以“看”、“听”和“说”了。

自诞生以来,ChatGPT的大部分更新主要在于,这个基于AI的机器人可以做什么、可以回答哪些问题、可以访问哪些信息,以及如何改进其基础模型等方面。这一次,OpenAI正在调整使用ChatGPT的方式。

具体而言,在语音方面:第一,允许用户进行语音对话,提供更直观的交互方式;第二,支持在iOS和Android移动应用上使用;第三,提供5种不同的语音选择;第四,通过新型文本转语音模型和语音识别系统实现。

这应该感觉就像与苹果的Siri交谈一样,只是OpenAI希望,通过改进基础技术使其说出更好的答案。目前,大多数虚拟助手,如亚马逊的Alexa,都在以大语言模型(LLM)为基础进行改进。

据OpenAI介绍,新的语音功能由一个新的文本到语音模型提供支持,该模型能够从文本和几秒钟的语音样本生成“类似人类的音频”。OpenAI似乎还认为该模型的潜力不止于此,其正在与流媒体音乐服务平台Spotify合作,将播客翻译成其他语言,同时保持播音者的声音。合成语音有许多有趣的用途,而OpenAI可能会成为该行业的重要组成部分。

然而,只需几秒钟的音频就能构建出功能强大的合成音色,这也为各种问题性用例敞开了大门。“这些功能还带来了新的风险,比如恶意行为者冒充公众人物或实施欺诈的可能性”,OpenAI在其宣布新功能的博文中写道。OpenAI表示,出于这个原因,该模型不会广泛被使用,而更多受到特定用例和合作伙伴的限制。

在图像方面,第一,允许用户上传图像与ChatGPT进行交互;第二,支持多张图像;第三,提供移动应用上的绘图工具;第四,使用多模态GPT模型(GenerativePre-TrainedTransformer,生成式预训练Transformer模型)理解图像;第五,在接下来的两周内首先面向Plus(付费订阅用户)和企业用户推出;第六,语音和图像功能的推出采取渐进策略,以确保安全性;第七,要注意模型局限性,避免高风险场景下对其依赖。

图像搜索有点类似于GoogleLens的功能,用户拍摄自己感兴趣的任何东西的照片,ChatGPT去尝试了解用户在询问什么,并做出相应的回应。用户还可以使用应用程序的绘图工具帮助明晰自己的诉求,或配合图像进行说话或写入问题。

这是ChatGPT希望实现的一个互动特性:与其进行一次搜索得到错误答案,然后再重新进行一次搜索,不如在进行的过程中提示AI机器人完善答案。

不过,显然图像搜索也有其潜在问题。比如,如果用户询问的是关于一个人的情况,ChatGPT该如何反应?OpenAI表示,他们故意限制了ChatGPT“分析和直接陈述关于人的能力”,这既是为了准确性,也是为了隐私原因。这意味着对于AI的一个极具科幻色彩的想象——看着某人然后问AI“那是谁”,并不会很快实现。

在ChatGPT首次推出将近一年后,OpenAI似乎仍在寻找,如何为其AI机器人增加更多功能和能力而不会产生新的问题和缺点。OpenAI也试图通过有意限制其新模型的功能,来维持“更进一步”和“降低风险”这两者之间的平衡。但这种方法可能不会永远奏效。随着越来越多的人使用语音控制和图像搜索,并且ChatGPT越来越接近成为一个真正多模式、有用的虚拟助手,维持住这个护栏会变得越来越困难。

THE END
1.chatgpt更新到第几代了导读:为帮助您更深入了解chatgpt更新到第几代了,小编撰写了chatgpt更新到第几代了,chatgpt崩了,chatgpt更新版本,有了chatgpt,chatgpt革新等5个相关主题的内容,以期从不同的视角,不同的观点深入阐释chatgpt更新到第几代了,希望能对您提供帮助。 本文目录一览 http://chatgpt.cmpy.cn/article/1718782.html
2.ChatGPTApp重大进化!能看能听还会说,多模态模型细节同时公布有网友已经想好,等更新了要问的第一件事是Sam Altman照片的背包里装的是什么。 那么,你想好第一件事问什么了么? 参考链接: [1]https://openai.com/blog/chatgpt-can-now-see-hear-and-speak。 [2]https://openai.com/research/gpt-4v-system-card。 https://www.51cto.com/article/768071.html
3.ChatGPT中文版:最新版本4.0国内免费使用全解析云典AI智库这一新版本通过更新功能和优化体验,让用户享受更加智能和高效的聊天机器人服务。用户评价普遍认为,ChatGPT 4.0版本在自然语言处理和对话生成方面有了显著提升,为用户带来更加流畅和贴近真实的交流体验。 许多用户指出,ChatGPT中文版4.0版本的出现,为他们的日常生活和工作带来了便利。用户可以通过ChatGPT智能对话系统进行http://cosoh.com/chatgptzhongwenbanzu/
4.国内中文版ChatGPT镜像网站整理合集2025/01/10更新最大区别:ChatGPT 4o支持多模态,OpenAI o1目前只支持文本内容。 能力上:OpenAI o1在推理能力上全面领先ChatGPT 4o。 使用限制:目前ChatGPT 4o官方Plus用户没有使用限制了,o1-mini 的限额从每周 50 条增加到每天 50 条,而 o1-preview 的限额从每周 30 条提高到每周 50 条。 https://blog.csdn.net/gptcanuse/article/details/145038669
5.#ChatGPT对话大赏iMessage AI助手的GPT-4o模型已升级至OpenAI刚刚发布的chatgpt-4o-latest,这样可以保证与ChatGPT当前所用的GPT-4o版本同步并且持续更新iMessage AI助手:stockai.trade#buildinpublic #ChatGPT对话大赏 1 00 文乐乐 7月前 这次的苹果的WWDC2024因为涉及人工智能领域,今日下班回家立刻上小破站恶补了大部分内容。发现https://m.okjike.com/hashtags/638d9555c9fda2f4608c1c5f
6.特朗普会见周受资称对TikTok有好感ChatGPT 搜索大更新,新增实时搜索和高级语音 在为期 12 个工作日的线上新品和新技术发布活动中,OpenAI 送上新王炸,这次聚焦不到两个月前上线的 ChatGPT 搜索功能。今年 10 月末 OpenAI 推出的 ChatGPT 搜索功能仅在 ChatGPT Plus 等付费套餐中可以使用。美东时间 12 月 16 日周一进行的第八日线上技术分享直播http://www.myzaker.com/article/6760c2a68e9f0968192372a0
7.手机端ChatGPT源码开发2023年已更新火爆项目ChatGPT创作系统是一款基于人工智能技术的文本生成工具, 公司目前已经为大中小型企业提供了一站式的APP开发服务,励志为企业品牌打造和提升、以及开发,区块和数字化,信息化软件系统等,为客户提供一站式解决方案和完整的营销解决方案。小程序定制开发、行业软件开发、为企业打造属于自己平台的开发解决,公司经过几年的发展已http://zhengzhou035769.11467.com/news/3281545.asp
8.更新下chatgpt外接口易语言版源码文件名模块文件名 20230310chatGPT.e 精易模块.ec 彗星HTTP应用模块.ec 蜗牛50个内存皮肤模块.ec引用支持库 源码文件名支持库文件名支持库标识 20230310chatGPT.e 系统核心支持库 5.7 d09f2340818511d396f6aaf844c7e325 多线程支持库 2.0 5F99C1642A2F4e03850721B4F5D7C3F8 特殊功能支持库 3.1 A512548E7https://www.eyuyan.la/post/21269.html