OpenAI下一款旗舰模型Orion将于12月前发布
OpenAI计划在12月之前发布下一款旗舰模型Orion。据悉,与GPT-4o和o1的发布不同,Orion最初不会通过ChatGPT广泛发布。据消息人士称,OpenAI计划首先向与其密切合作的公司授予访问权限,以便他们构建自己的产品和功能。虽然Orion在OpenAI内部被视为GPT-4的后续版本,但目前尚不清楚是否会对外称其为GPT-5。
OpenAI提出简化一致性模型sCM
OpenAI聘请前Uber高管担任首席合规官
OpenAI已聘请Uber前高管ScottSchools担任其首任首席合规官,以加强这家初创公司适应全球新兴人工智能法规的能力。Schools此前担任Uber首席伦理与合规官,Uber也曾面对复杂的监管环境。在此之前,Schools曾在美国司法部担任副检察长助理。
Ideogram推出AI创意工具Canvas
Ideogram推出了一个用于组织、生成、编辑和组合图像的创意工具——Canvas。用户可以上传自己的图像或在Canvas中生成新图像,然后使用MagicFill和Extend工具无缝编辑、扩展或组合。Canvas非常适合图形设计,提供高级文本渲染和精确的promptadherence,通过灵活的迭代过程将愿景变为现实。
RhymesAI推出开源视频生成模型Allegro
RhymesAI推出了开源视频生成模型Allegro,其可将简单的文本提示以每秒15帧和720p分辨率生成高质量的6秒视频,高效地创建人物细节特写、动物在各种环境中的动作等各种电影主题。
Genmo推出开源视频生成模型Mochi1
Genmo推出了一款开源SOTA视频生成模型Mochi1Preview,其在运动质量方面表现出显着改善,并且具有极强的promptadherence,极大地缩小了闭源和开源视频生成系统之间的差距。Mochi1Preview根据Apache2.0许可证获得许可,可免费用于个人和商业用途。
Runway推出Act-One
Runway推出了Act-One,这是一款用于在Gen-3Alpha中生成富有表现力的角色表演的新工具。Act-One可以使用视频和语音表演作为输入来创建引人注目的动画,将生成模型用于富有表现力的实时动作和动画内容。
智谱推出情感语音模型GLM-4-Voice
在CNCC2024大会上,智谱推出了他们在多模态领域的最新成果——。据介绍,GLM-4-Voice能够直接理解和生成中英文语音,进行实时语音对话,在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面实现突破,且延时更低,可随时打断。同时,GLM-4-Voice发布即开源,这也是智谱首个开源的端到端多模态模型。除了同步开源,GLM-4-Voice也即刻上线清言app,这让清言成为国内首个具有端到端高级语音(超拟人语音)能力的大模型产品。
智谱推出AutoGLM:AI的「phoneuse」来了
Anthropic:大模型可以自主使用电脑了
Anthropic推出Claude3.5Sonnet升级版和Claude3.5Haiku
日前,Anthropic宣布推出升级版Claude3.5Sonnet和新模型Claude3.5Haiku。升级后的Claude3.5Sonnet与前代产品相比有了全面的改进,尤其是在编码方面有了显著的提高。Claude3.5Haiku在许多评估中的性能与Claude3Opus(他们之前最大的机型)不相上下,而成本和速度却与上一代Haiku相当。
Claude能够编写和运行JavaScript代码了
Anthropic为Claude推出了分析工具,使其能够编写和运行JavaScript代码。该工具如同内置的代码沙箱,使Claude可以执行复杂的数学运算、分析数据,并优化回答流程,目前在功能预览中对所有Claude用户开放。
Meta推出首款轻量级量化Llama模型
Meta推出了首款轻量级量化Llama模型,其性能足以在许多主流移动设备上运行。作为首批量化模型,这些指令微调模型在质量和安全性上保持与原始1B和3B模型相同的标准,速度提升2-4倍,模型大小减少56%,内存使用降低41%。该模型可通过PyTorch的ExecuTorch框架进行推理,且已在与高通和联发科等合作伙伴的协作下在ArmCPU上推出。
StabilityAI推出StableDiffusion3.5
StabilityAI推出了StableDiffusion3.5,这是他们迄今为止最强大的模型。这一开放版本包括多个模型变体,包括StableDiffusion3.5Large和StableDiffusion3.5LargeTurbo,以及一周后将发布的StableDiffusion3.5Medium。据介绍,这些模型的大小是高度可定制的,能在消费级硬件上运行。
Cohere推出多模态AI搜索模型Embed3
Cohere推出了SOTA多模态AI搜索模型Embed3,为图像数据释放真正的商业价值。企业现在可以建立系统,准确、快速地搜索重要的多模态资产,如复杂的报告、产品目录和设计文件,从而提高员工的工作效率。
PerplexityAI在新一轮融资中寻求约90亿美元的估值
据CNBC证实,AI初创公司PerplexityAI已启动新一轮融资谈判,寻求将其估值提高一倍以上——约90亿美元。PerplexityAI的AI搜索引擎正试图削弱Google的主导地位。近期,Perplexity深陷争议,面临着来自《纽约时报》等媒体的一系列剽窃指控,声称Perplexity“抄袭”了他们的内容,Perplexity否认了这些指控。
高通、谷歌联手帮助汽车制造商开发AI语音助手
日前,高通宣布与谷歌合作,为汽车制造商提供芯片和软件组合,两者共同研发的新版AndroidAutomotiveOS将适配高通芯片,支持汽车制造商开发不依赖手机的语音助手。当天,高通还推出了两款新芯片:用于仪表盘的SnapdragonCockpitElite和支持自动驾驶的SnapdragonRideElite,奔驰计划在未来车型中使用该芯片。
英伟达BlackwellAI芯片的设计缺陷已修复
英伟达首席执行官黄仁勋表示,在台积电的帮助下,其最新的BlackwellAI芯片的一个影响生产的设计缺陷已得到修复。“虽然它能正常使用,但设计缺陷导致成品率低。这100%是英伟达的错。”
Canva拥有闪亮的全新文字图片生成器
Canva在其基于Web的设计平台中添加了一系列新的AI功能,包括用于生成文本和视频效果的更新,以及文本到图像应用程序“DreamLab”,后者允许用户从各种样式的描述中生成图像,例如“3D渲染”和“插图”。Canva还对“Magic”AI工具套件进行了更新,比如提高准确性和MagicWrite文本生成功能的一键式自动完成命令。
陷入困境,AiPin已降价200美元
Humane宣布将其旗舰产品AiPin降价200美元。据报道,这家由两名前苹果高管创立的初创公司一直在努力销售AiPin。该产品于4月推出,起初售价700美元,但由于评价不佳、销售情况不佳,自5月份开始便考虑降价出售。据报道,截至8月份,AiPin的退货量已开始超过销售量,市面上只剩下大约7000到8000台AiPin。
荣耀发布AI操作系统MagicOS9.0
据《科创板日报》报道,荣耀MagicOS9.0日前在国内发布,是行业首个搭载智能体的个人化全场景AI操作系统。荣耀CEO赵明表示,目前在大模型落地方面,不同设备采用灵活部署。其中,1500万参数的语言大模型、500万参数图像大模型实现全系列端侧部署,10亿参数的多模态大模型、30亿参数的大语言模型、4000万参数的图像大模型在中高端系列端侧部署。
高通推骁龙8至尊版:将适配GLM-4V端侧视觉大模型
据财联社报道,高通发布的骁龙8至尊版,采用第二代定制OryonCPU和增强HexagonNPU,并宣布与智谱合作将GLM-4V端侧视觉大模型深度适配骁龙8至尊版。据悉,未来几周内,包括华硕、荣耀、OPPO、vivo、三星、小米和中兴等厂商将会在几周内陆续发布搭载骁龙8至尊版的终端。
波形智能确认被OPPO收购
技术前瞻
清华、中科院、智谱团队提出LongRAG
长上下文问答(LCQA)是一项具有挑战性的任务,旨在对长上下文文档进行推理,从而得出问题的准确答案。现有的用于LCQA的长上下文大语言模型(LLM)往往难以解决“lostinthemiddle”的问题。检索增强生成(RAG)通过提供外部事实证据来缓解这一问题。然而,它的分块策略会破坏全局性的长上下文信息,而且其在长上下文中的低质量检索会由于大量噪音而阻碍LLM识别有效的事实细节。
为此,来自清华大学、中国科学院和智谱的研究团队提出了一种通用的、双视角的、鲁棒的基于LLM的RAG系统范式——LongRAG,在LCQA任务中增强RAG对复杂长上下文知识(即全局信息和事实细节)的理解。
他们将LongRAG设计为即插即用范例,便于适应各种领域和LLM。在三个多跳数据集上进行的广泛实验表明,LongRAG的性能明显优于长上下文LLM(提高了6.94%)、高级RAG(提高了6.16%)和VanillaRAG(提高了17.25%)。此外,他们还进行了定量消融研究和多维分析,凸显了系统组件和微调策略的有效性。
谷歌推出生成式无限游戏Unbounded
来自谷歌和北卡罗来纳大学的研究团队提出了“生成式无限游戏”(generativeinfinitegame)的概念,即通过使用生成式模型,超越传统的有限、硬编码系统界限的视频游戏。
受JamesP.Carse区分有限游戏和无限游戏的启发,他们利用生成式AI创建了Unbounded:一款完全由生成式模型封装的角色生活模拟游戏。Unbounded从沙盘生活模拟中汲取灵感,可以让玩家在虚拟世界中通过喂养、玩耍和引导自主虚拟角色与之互动——由LLM生成开放式机制,其中一些机制可能是“涌现”的。
为了开发Unbounded,他们提出了:(1)一个专门的、经过提炼的大语言模型(LLM),可实时动态生成游戏机制、叙事和角色互动;(2)一个用于视觉模型的新型动态区域图像提示适配器(IP-Adapter),可确保在多个环境中一致而灵活地生成角色的视觉效果。
微软提出新型注意力机制SeerAttention
注意力的二次复杂度限制了LLM的效率和可扩展性,尤其是对于那些具有长上下文窗口的LLM。解决这一限制的一个可行方法是利用注意力的稀疏性。然而,现有的基于稀疏性的解决方案无法完全捕捉到基于语言的任务中注意力稀疏性的动态本质。
来自微软的研究团队及其合作者认为,注意力稀疏性应该是学习出来的,而不是预先定义的。为此,他们设计了一种新的注意力机制——SeerAttention,它通过一个可学习的门,自适应地选择注意力地图中的重要区块,并将其余区块视为稀疏区块,从而增强了传统注意力。这种块级稀疏性有效地平衡了准确性和速度。为了高效地学习门控网络,他们开发了一种定制的FlashAttention实现方法,它能以最小的开销提取块级注意力图的基本事实。SeerAttention不仅适用于后期训练,而且在长期上下文微调方面表现出色。
结果表明,在后训练阶段,SeerAttention明显优于基于静态或启发式的稀疏注意力SOTA方法,同时在适应不同上下文长度和稀疏比率方面也更加灵活多变。在使用YaRN进行长上下文微调时,SeerAttention可以在32k上下文长度下达到90%的稀疏率,同时将困惑度损失降到最低,与FlashAttention-2相比,速度提高了5.67倍。
苹果提出模型更新训练策略MUSCLE
苹果团队发现,当更新预训练的LLM基本模型时,经过微调的面向用户的下游任务适配器会出现负翻转——以前正确的实例现在预测错误。他们观察到,即使下游任务训练程序保持一致,在不同的任务和模型集上的不同模型版本之间也会出现模型更新回归。
他们论证了在更新过程中保持模型更新兼容性的重要性,并提出了专为生成任务设计的评估指标,同时也适用于判别任务。他们提出了一种训练策略,以尽量减少模型更新中的实例回归程度,其中包括训练一种兼容性适配器,它可以增强任务微调语言模型。结果表明,在使用该方法将Llama1更新为Llama2时,负翻转率最高可减少40%。
田纳西大学诺克斯维尔分校助理教授刘健、里海大学助理教授孙力超等人合作开发了首个旨在通过让生成式AI模型无法学习音乐来保护音乐家知识产权的防御框架HarmonyCloak。通过在音乐中嵌入不易察觉、误差最小的噪音,HarmonyCloak能有效防止AI系统提取有意义的模式,同时保留音乐质量。
观点
前OpenAI研究员:我必须离开
OpenAI研究科学家:20秒的思考价值10万倍的数据
日前,OpenAI的研究科学家NoamBrown在TEDAI大会上谈到了o1模型及其通过推理、高级编码和科学研究改变行业的潜力。他指出,虽然扩大模型规模一直是AI发展的关键因素,但现在需要转变范式,AI需要超越纯粹的数据处理,进入“system2思维”,这是一种更慢、更深思熟虑的推理形式,反映了人类处理复杂问题的方式。在他看来,20秒钟的思考价值10万倍的数据。
又一OpenAI高管辞职:没有公司为AGI做好准备
日前,OpenAI的AGIReadiness团队高级顾问MilesBrundage在离职时发出了严厉的警告:没有人为通用人工智能(AGI)做好准备,包括OpenAI本身。“OpenAI或任何其他前沿实验室都没有为AGI做好准备,世界也没有准备好”,Brundage写道。他的离职标志着OpenAI安全团队一系列离职事件的最新一次。此前JanLeike在声称“安全文化......已被闪亮的产品所取代”之后离开了OpenAI,IlyaSutskever也在离开OpenAI后创办了自己的AI初创公司,专注于安全的AI开发。
内部员工:苹果AI落后行业巨头超两年
知名科技记者MarkGurman称,一些苹果员工认为该公司在人工智能发展方面大约落后两年。Gurman表示,苹果的内部研究表明,ChatGPT的准确性比苹果语音助手Siri高出约25%,且可以回答更多问题。此外,Gurman也谈道,到2026年,AppleIntelligence将在每个带屏幕的苹果设备上运行,而苹果在赶超竞争对手时,拥有一个很大的优势——能够迅速将新功能推送至海量设备。
DeepMind创始人:今年的诺贝尔奖,就像是AI的分水岭
日前,英国《金融时报》(FT)刊登了新晋诺奖得主、GoogleDeepMind首席执行官DemisHassabis接受科技记者MadhumitaMurgia的专访。在访谈中,Hassabis深度探讨了,并强调了在推进AGI过程中对系统理解、安全性及社会价值观讨论的重要性。“没人知道[诺贝尔]委员会在想什么......这感觉像是AI的一个分水岭,人们认识到它实际上已经足够成熟,可以帮助科学发现。”
a16z创始合伙人:当前的AI发展就像“卖大米”
a16z创世合伙人MarcAndreessen在谈到大语言模型(LLM)发展时表示:“也许所有这些公司都在恶性竞争(aracetothebottom)”。他还将当前的AI发展比作为“卖大米”,认为产品差异化不大,“事实证明,任何人都可以做一个LLM。”