OpenAI于周一宣布推出一款全新的旗舰生成式AI模型——GPT-4o。“o”代表“omni”,意味着该模型具备处理文本、语音和视频的能力。
OpenAI首席技术官MiraMurati表示,GPT-4o提供了“GPT-4级别”的智能,但在多种模态和媒体上改进了GPT-4的能力。“GPT-4o能够跨越声音、文本和视觉进行推理,”Murati在周一于旧金山OpenAI总部进行的流媒体演示中说道。“这非常重要,因为我们正在展望未来人类与机器之间的互动。”
OpenAI先前的“领先”模型GPT-4Turbo是基于图像和文本的组合进行训练的,可以分析图像和文本以完成任务,如从图像中提取文本或描述这些图像的内容。但GPT-4o在此基础上增加了语音功能。
在GPT-4o之前,用户已经可以通过语音模式与ChatGPT进行交流,不过这种方式存在一个由三个独立模型构成的处理流程:首先,一个模型负责将用户的音频转化为文本;接着,GPT-3.5或GPT-4会接收这些文本并产生回应文本;最后,第三个模型会将回应文本再转化回音频形式反馈给用户。这一过程中,GPT-4作为核心的智能处理环节,却无法直接处理音频中的音调、多声源、背景噪音等复杂信息,其输出也仅限于文本,无法表现笑声、歌声或情感。
而GPT-4o是一个全新模型,它结合了文本、视觉和音频,在端到端的框架下进行了整体训练。这意味着所有的输入与输出都由单一的神经网络统一处理,GPT-4o是首个融合了所有这些交互模式的模型,用户可以向GPT-4o驱动的ChatGPT提出问题,并在其回答过程中打断它。OpenAI表示,该模型提供“实时”响应能力,甚至可以捕捉到用户声音的细微差别,并生成具有“一系列不同情感风格”的声音(包括唱歌)。
OpenAI表示,在其API和Microsoft的AzureOpenAI服务中,GPT-4o的速度是GPT-4Turbo的两倍,价格只有其一半,并且具有更高的速率限制。目前,并非所有客户都能通过GPT-4oAPI使用语音功能。OpenAI表示,鉴于滥用风险,它计划在未来几周内首先将GPT-4o的新音频功能支持提供给“一小群受信任的合作伙伴”。
GPT-4o即日起在ChatGPT的免费版本中提供,并向OpenAI的高级ChatGPTPlus和团队计划用户开放,具有“5倍更高”的消息限制。(OpenAI指出,当用户达到速率限制时,ChatGPT将自动切换到较旧且功能较少的GPT-3.5模型。)由GPT-4o支持的改进版ChatGPT语音体验将于下个月左右面向Plus用户推出alpha版本,同时还将推出面向企业的选项。
此外,OpenAI的GPTStore,即其基于AI模型的第三方聊天机器人库和创建工具,现已向ChatGPT免费版用户开放。免费用户现在可以利用以前仅对付费用户开放的功能,如允许ChatGPT“记住”未来交互偏好的记忆功能、上传文件和照片以及搜索网络以获取即时问题的答案。