要做GPT-4杀手的GoogleGemini大模型终于在2023年的最后一个月发布了。
Gemini的演示视频迅速在各个社交媒体上传播开来,人们对此不吝溢美之词。因为之前还没有哪个大模型能够以如此快速和准确的方式去分析视频内容,哪怕是目前最先进的GPT-4V(ision)也只能分析静态的图片。不过,很快就有专业人士指出Gemini的视频过于完美,存在造假的嫌疑;最终,Google团队回应表示Gemini是对着静止的图像作答,视频只是个噱头。
其实就在本周一,还有传言称Gemini的发布会将因为模型可靠性得不到保障而推迟到2024年年初发,但Google已经没有再延后下去的余裕了。就在年初ChatGPT的竞品Bard出师不利时,很多人还认为这只是短暂的落后,Google将会很快追上OpenAI。但当下半年OpenAI不断迭代GPT-4并落地各种应用产品,而Google的基础模型迟迟没有新消息,Gemini的仓促发布也就势在必行。Google此次先推出了Gemini的低配版本Nano和Pro,对标GPT-4的高配版本Ultra将在明年年初上线。
每家技术公司都知道,截至目前,生成式AI领域竞争的关键点还是集中在大模型的能力上。微软、Google、Meta甚至亚马逊都马不停蹄地将大模型植入到各种产品中,以丰富应用的功能、提升用户的体验,例如Meta让AI角色拥有记忆能力来提升交互体验,而微软明年也要将生成式AI带到Windows底层去提升操作系统能力。但这些都只能起到锦上添花的作用,当用户遇到一个理解力更强、逻辑清晰、反应敏捷的产品时,他们会作出什么样的选择是显而易见的,因为模型强大的能力本身就带来了最好的功能和体验。
不过,模型继续开发与AI安全的纠葛也还在继续,OpenAI在11月掀起的人事风波本周仍激起一些回响。导致SamAltman被董事会解雇的「元凶」HelenToner接受了《华尔街日报》的访谈,她坚持认为自己的行为是在守护OpenAI的创立原则:增进人类福祉,而非资本家的余额。但从结果来看,资本主义与商业化的车轮滚滚前行,在飘渺的安全与迫切的追赶间,Google毫不犹豫地选择了后者。
就在本周末,X平台上有人爆料,2023年年终的大模型发布竞赛还没有结束,无论是GPT-4.5还是Claude的新版本,都可能会在年前推出。
以下内容由新皮层团队制作。
新皮层NewNewThing
174篇原创内容
公众号
KeyPoints
模型与应用篇
Google发布Gemini,暗示GPT-4不是「原生」多模态;
微软Copilot接入GPT-4最新功能;
Meta更新多个AI功能。
芯片篇
OpenAI推迟发布GPT商店,并可能在2024年采购非英伟达的AI芯片;
AMD的AI芯片MI300终于上市;
百度、腾讯和智谱投资AI芯片创企无问芯穹。
融资篇
MistralAI再融4.5亿欧元,估值近20亿美元;
马斯克的xAI正寻求10亿美元融资;
商汤考虑推动自动驾驶、医疗保健部门独立融资。
Google发布Gemini,暗示GPT-4不是「原生」多模态
一个模型有3个版本,分别对标GPT-3.5、GPT-4,还有一款适用于移动设备
具体来说,Gemini1.0提供了3种尺寸的模型:Ultra、Pro和Nano,使其可以在从数据中心到移动设备的任何设备上运行。
·GeminiUltra——规模最大、功能最强,适用于高度复杂的任务,在数据中心运行,对标GPT-4;
·GeminiPro——适用于各种任务,通过GoogleCloud提供服务,对标GPT-3.5;
·GeminiNano——最小版本,适用于移动设备,比如手机。
Google称,在向公众发布前,GeminiPro已经通过了一系列行业标准基准测试,在8个基准测试中的6个测试中,GeminiPro的表现优于GPT-3.5;而GeminiUltra在广泛使用的基准测试中优于GPT-4,这些基准测试包括阅读理解、代码生成和视觉理解等功能。
3个版本中,GeminiPro版在发布会当天就已上线到Google的部分内部应用中,外部开发者要使用该模型需要等到下周,他们此刻可以访问的只有最小版本的GeminiNano。而最先进的GeminiUltra要在2024年年初才会正式发布和上线。
Gemini都会用在哪?
在Google内部,Gemini的应用计划是:
·Bard(聊天机器人,对标ChatGPT):12月6日开始,Bard背后的模型就由5月发布的PaLM2替换成了GeminiPro。Google称,2024年年初,当对标GPT-4版本的GeminiUltra发布时,Bard背后的模型将进一步升级为GeminiUltra,推出BardAdvanced(对标ChatGPTPlus),届时这款聊天机器人就能解释图像和视频,就像视频里演示的那样。
Bard是Google今年3月发布的聊天机器人,对标OpenAI的ChatGPT,目前已经在170多个国家和地区提供服务。由于缺少先发优势,且背后模型的能力差异,Bard的用户量至今还远低于ChatGPT。通过接入GeminiPro与不久后的GeminiUltra,Brad至少在模型能力上追上了ChatGPT。目前,OpenAI对ChatGPTPlus用户每月收取20美元,未来,Google可能会对BardAdvanced采取类似政策。
·Pixel(智能手机):Google计划将3款模型中size最小的GeminiNano加载到智能手机中。加载了该模型的手机将具备的功能包括:
总结:GeminiNano可以为手机中的对话录音、采访、演示等内容生成总结摘要,哪怕没有网络连接,这项功能也可以离线完成,该功能目前仅支持英文文本;
·智能回复:GeminiNano可以识别聊天过程中的朋友来信,并根据不同来信生成对应回复。该功能将首先登陆WhatsApp,并仅支持英文文本,明年推广至更多即时通讯应用;
·照片和视频的AI编辑:比如清洁功能,只需要在照片上滑动几下,即可消除图片中的污渍、折痕等。
Pixel8Pro将是首款搭载GeminiNano的智能手机。有数量庞大的移动设备使用了Google旗下的Android系统,未来Google可能让Gemini进入其他厂商生产的Android设备,这样它就可以将生成式AI引入遍布全球的数十亿台移动设备。
·Google(搜索引擎):Gemini目前尚未在Google搜索引擎中上线,但公司已经在该领域测试Gemini。此前,Google已经使用其他模型上线和测试了将搜索和生成结合起来的「搜索生成服务」(SearchGenerativeExperience,SGE)。
至于外部企业客户:
12月13日开始,开发者和企业客户可以通过GoogleAIStudio或GoogleCloudVertexAI中的API获取GeminiPro,即对标GPT-3.5的那个中型版本。
此外,Android开发者还可以通过AICore使用最小的端侧模型GeminiNano。AICore是Android14中的一项新的系统功能,从Pixel8Pro开始在设备中支持。
参考链接
微软Copilot接入GPT-4最新功能
12月5日,微软宣布Copilot的最新进展,将GPT(包括GPT-4Turbo)、DALL·E3等模型的几乎所有功能都搬进了Copilot,其知识库也更新至2023年4月,一次能处理的上下文长度达到128K。
两周前,为了统一品牌和使用体验,微软将搜索引擎上的BingChat、Windows上的Copilot统合成一个产品Copilot,并且开放了独立主页,用户现在可以通过copilot.microsoft.com免费使用。
这次有哪些更新?
·在Edge浏览器使用Copilot重写短语:通过使用Edge浏览器里的「内嵌撰写与重写菜单」(InlineComposewithrewrite),人们可以选中网站上的文本并让Copilot重写。该功能很快会对所有Edge用户开放;
·多模态搜索:搭载GPT-4的Copilot可以通过视觉识别模型分析图片,自动搜索关键信息。比如,用户上传照片到微软的聊天机器人,并就照片内容提出问题,可即刻获得回答。微软表示,不久后GPT-4的功能将与视觉识别、Bing图像搜索及网络搜索数据结合,以便帮助用户更好地查询;
·Bing的深度搜索:本次更新的深度搜索是使用GPT-4优化复杂话题的搜索结果。比如,当用户的搜索短语有好几种可能的含义,深度搜索会把这些可能性都展示出来,让用户选择最贴切的一个,接着它会进一步深入搜索,甚至重新组织原始查询结果,以获得最好的答案。该功能将很快在Bing上推出;
·代码解释器:这是Copilot的一个新功能,支持用户执行更复杂的任务,比如更精确的计算、编程、数据分析、可视化、数学等。该功能目前仍在内测阶段,不久后将面向更多用户开放。
Meta更新多个AI功能
12月6日,就在Google发布多模态大模型Gemini不久,另一个OpenAI的追赶者Meta也宣布旗下一系列社交应用如Facebook、Instagram和WhatsApp的更新,主题就是让生成式AI更好地与这些产品结合起来。
文生图产品Imagine有了独立界面
9月27日推出的MetaAI智能助手测试版就已经拥有文生图能力,现在Mata决定把这个能力开放出来,它建立了一个网站imagine.meta.com,该功能目前对美国地区的用户免费开放。
Imagine产品是基于Meta现有的Emu图像生成模型构建的。为了训练该模型,Meta使用了11亿张公开的Facebook和Instagram图片数据,Meta也表示这种独一无二的训练数据使得Emu相比其他模型有着独特的优势。
随着公共领域可用于生成式AI训练的数据逐渐耗尽,Meta等社交公司拥有的大量用户生成内容(UGC)成了香饽饽,这也成为这些公司模型产品的卖点之一。例如马斯克的Grok就用了X平台的数据来训练,Google的Gemini训练中也使用了大量YouTube视频数据。
MetaAI推出新功能
在本次更新中,MetaAI也增加了两个AI驱动的新功能:
·Reimagine:聊天中微调AI图像
在这项功能中,群聊中的用户可以通过自然语言提示来重新创建AI图像。首先,用户需要群聊中调用MetaAI来生成图像,随后,群聊中的其他用户可以通过按住图像来增加新的语言描述。MetaAI就会根据用户的提示和修改从而生成全新的图像。
·Reels:用视频回答问题
28个AI聊天机器人有了记忆
Meta宣布,此前推出的一系列聊天机器人目前已在美国全面推出,用户可以WhatsApp、Messenger和Instagram和它们聊天。其中部分AI聊天机器人具有「长期记忆」的功能,能够在保留用户会话数据,并在下一次聊天时从上次中断的地方继续。此外,Meta也宣布,更多的角色将支持Bing搜索的功能,支持用户通过和聊天机器人的对话框搜索。
OpenAI推迟发布GPT商店,并可能在2024年采购非英伟达的AI芯片
12月2日,OpenAI向每个搭建过GPT的用户发送了一封邮件,原定于今年12月推出的GPT商店(GPTStore)将延后至明年年初上线。新皮层追踪了11月初的首届OpenAI开发者大会,当时OpenAI发布了GPT-4升级版GPT-4Turbo、GPTs等。
「罢免Altman事件」影响了GPT商店的发布
OpenAI在这份面向开发者的内部备忘录中表示,「我们预计会在11月发布GPT商店,但一些意外事件让我们很忙碌」,这直接指向了11月中旬发生的「管理层动荡」。
据称SamAltman激进的商业化战略是此次董事会罢免行动的导火索,而首届开发者大会上推出的GPT商店就是商业化中的一环。在计划中,GPT商店会是OpenAI开设的官方平台,开发者可以在这个平台上发行个人搭建的GPTs——例如上传各种菜谱资料就能构建一个「炒菜帮手」,并且收到来自ChatGPTPlus付费订阅费用的分成。
OpenAI计划采购AI芯片,来自Altman投资的公司
有报道称,2019年SamAltman投资的芯片开发商RainAI就与OpenAI签署了一份不具约束力的意向书。如果RainAI公司开发的芯片产品上市,OpenAI计划斥资5100万美元购买这些芯片产品。有消息称,RainAI的测试芯片最快本月流片,最早可能在2024年10月向客户提供首批芯片产品。
RainAI成立于2017年,总部距离OpenAI旧金山总部不到1.6公里,目前拥有大约40名员工。这家初创公司的目标是开发一种AI专用芯片,相比GPU在训练和推理上功耗更低、性能更强,被称为神经网络处理器(NPU)。
RainAI公司的初始芯片中采用开源芯片架构RISC-V。2021年,它推出了一款演示芯片,采用随机连接的忆阻器3D阵列,能以较低功耗完成神经网络训练和推理。相对的,商用芯片更多使用模拟内存处理器技术,该技术需要在网络层之间做数字转换,因而功耗更大。
截至目前,RainAI公司总共融资超过3210万美元。SamAltman投资RainAI公司是在2018年,当时他通过创业加速器YCombinator领投了RainAI的种子轮融资,《连线》杂志获取的资料显示,Altman个人已向该公司投资了超过100万美元。除此以外,RainAI的投资方还包括百度和硅谷风投公司GrepVC,后者于2022年接手了沙特阿美旗下的风险投资基金Prosperity7转让的股份。
Altman对于AI芯片的野心
在投资RainAI公司之外,SamAltman还在筹备新的AI芯片项目。
11月底,彭博社援引信源消息称,SamAltman正努力从中东投资者手里筹集资金,用于一个代号为「底格里斯河」(Tigris)的芯片项目,目标是与英伟达的AI芯片竞争。
该消息称Altman已与软银集团、沙特阿拉伯主权财富机构公共投资基金(PIF)、阿联酋第三大主权财富基金穆巴达拉投资公司等公司,就AI芯片、AI硬件等项目展开谈判,目标是寻求数百亿美元的资金。
AMD的AI芯片MI300终于上市
12月6日,AMD宣布开始销售其最新的InstinctMI300系列芯片。这是MI300芯片自6月发布之后的又一大动作,意味着AMD的AI芯片开始正式向市场交付。
MI300到底牛在哪儿?
这次发布的MI300系列芯片包括两款产品,即加速器(accelerator)MI300X和加速处理单元(acceleratedprocessingunit,APU)MI300A。两者的区别在于,MI300X的核心处理器是纯粹的GPU,MI300A则是GPU和CPU的结合体。
在计算能力方面,GPU通常适用于简单任务的大批量训练,AI训练普遍依赖GPU;而CPU适用于处理复杂任务,但较难承担大批量工作。将GPU和CPU结合,既利用了AMD自身在CPU上的传统优势,也提升了处理速度。
目前MI300系列芯片最主要的竞争对手是2022年9月开始投产的英伟达H100系列芯片。MI300X和MI300A分别会内置192G和128G的GPU内存,均高于H100的80G。AMDCEO苏姿丰称,MI300X在训练700亿参数的大语言模型Llama2时,表现比H100好1.4倍。
在MI300系列面世前,AI训练芯片领域几乎由英伟达一家垄断。英伟达11月发布了最新款的AI芯片H200,内存提升至141G,但GPU核心参数没有改变。在训练同样的Llama2模型时表现仅比H100提升90%。
数据中心和AI模型训练都耗能巨大,因此AMD还在努力降低芯片的能耗,计划到2025年将能耗降低到2020年的1/30。MI300A芯片将CPU和GPU结合在一起的目的之一就是提高产品的能源利用效率,降低能耗。
谁会买MI300?买来干啥?
目前已确认购买MI300的巨头包括微软和Meta。微软11月就在其云服务Azure上发布了使用MI300X的虚拟机产品。Meta也计划在其数据中心里使用MI300系列处理器。除了企业,美国LawrenceLivermore国家实验室的超级计算机ElCaptain也会使用MI300A芯片,该计算机预计明年完全投入使用,届时其性能可能会跃居全球第一。
技术公司如此积极地尝试AMD的AI芯片,背后的原因不难理解。过去一年生成式AI热潮导致AI芯片的需求在短期内急剧增长,但市面上可供使用的AI芯片却只有英伟达一家的。供需关系严重失衡之下,拥有充足的AI芯片成了竞争的关键要素,英伟达可以说是挟A100、H100以令群雄。当时微软、Meta、OpenAI等公司纷纷宣布要自研AI芯片。如今这些技术公司总算等来了它们的PlanB。
百度、腾讯和智谱投资AI芯片创企无问芯穹
今日无问芯穹的注册资本由119万元增至约152万元,并且新增百度、腾讯、智谱3家股东。无问芯穹专注于大模型推理芯片的研发,提供大模型软硬一体的优化方案。
无问芯穹于今年5月成立,公司法人为曾书霖,2008年他本科毕业于清华大学电子工程系,博士师从清华大学电子工程系长聘教授、系主任汪玉。汪玉曾于2016年与学生姚颂共同创立芯片公司深鉴科技,该公司2018年被全球最大的FPGA厂商赛灵思收购,此次可以看作汪玉的二次创业。
MistralAI再融4.5亿欧元,估值近20亿美元
近日,法国初创公司MistralAI最新一轮的融资即将完成,预计会筹集到约4.5亿欧元(4.87亿美元)的资金。此轮融资完成之后,MistralAI的估值将接近20亿美元。
谁参与了本轮投资?
本轮融资包括约3.3亿欧元的股权投资,由风投公司a16z领投。该公司还在就追加投资2亿欧元与MistralAI谈判。此外,主要的投资者还包括英伟达、Salesforce,双方将提供1.2亿欧元的可转换债券。作为交易的一部分,MistralAI的3位联合创始人同意分别出售超过100万欧元(指注册资本资金)的股权,还有另外3位内部人士也将同步出售股份。据知情人士透露,在最终融资结束之前,具体细节可能还会有所变动。
今年6月,MistralAI在种子轮融资阶段通过释放了43%的股权筹集到1.05亿欧元,公司估值为2.4亿欧元(2.59亿美元),成为欧洲有史以来最大规模的种子轮融资。这笔投资由光速创投领投,多家欧洲投资方参与投资。
MistralAI是一家什么样的公司?
创立于2023年5月的MistralAI目前是欧洲最著名的AI初创公司之一,总部位于法国巴黎。Mistral的创始人是3位来自DeepMind和Meta的前员工,其中GuillaumeLample曾领导Meta的大模型团队完成Llama的开发。
今年6月,Mistral发布产品规划,宣布将向企业提供更可靠、更安全的AI解决方案。根据公开的规划显示,Mistral计划只服务于企业用户,并开源基础模型,使用公开可用的数据来训练模型,以符合欧洲《人工智能法案》对AI公司的要求。
今年9月,Mistral发布了其首个大模型Mistral7B。Mistral7B拥有70亿参数,免费提供给开发者使用。该公司表示,Mistral7B在处理和生成文本的速度比一些LLM快得多,并且运行成本明显降低。
马斯克的xAI正寻求10亿美元融资
12月6日,一份xAI提交给美国证券交易委员会的「表格D」(FormD)文件显示,马斯克的人工智能初创公司xAI正计划出售股权以换取总计10亿美元的资金。
什么是表格D?
表格D是美国证券交易委员会(SEC)要求提交的一种文件类型,它是根据《1933年证券法》规则506条款下的豁免要求而提交的,这种豁免允许公司向「合格投资者」出售未注册的证券。
它透露出xAI哪些信息?
表格D需要包含发行人信息、发行详情(类型和规模)、投资人信息等等。
xAI这份文件显示,这次融资的目标金额为10亿美元,于11月29日发起,单笔投资金额至少需要达到200万美元。目前已经从4位投资者那里筹集到约1.34亿美元的资金,意味着还需要大约8.65亿美元才能达到既定目标。
文件还显示,xAI公司注册在内华达州,但主要运营地点在加利福尼亚州。此次融资向加利福尼亚与德克萨斯两个州开放。
xAI和它的产品Grok
xAI在今年7月中旬成立,马斯克将其定位为一家人工智能公司。xAI的创始成员来自DeepMind、OpenAI、Google、微软等技术公司的关键岗位。马斯克一直不满于OpenAI等技术公司的做法,谴责它们未充分重视AI的安全性问题,并在程序回答敏感问题时「审查」内容。
11月初,该公司发布了第一款产品聊天机器人Grok,能够以对话形式回答用户的问题,生成文字或代码。区别于ChatGPT的是,Grok的回答风格据说「有点机智、有点叛逆」,同时它还能获取X平台内容。
与X高度绑定
11月20日,马斯克宣称,X公司(原Twitter)的投资者将拥有xAI的25%股份。X公司于2022年11月完成私有化并退市,目前由马斯克全资所有。此前有传言称X将于2026年重新上市。
同时,xAI的产品也集成到社交媒体平台X。目前,Grok已被纳入PremiumPlus,X用户可以每月花费16美元订阅。
商汤考虑推动自动驾驶、医疗保健部门独立融资
12月1日,彭博社援引信源消息称,商汤科技正在考虑分拆智能汽车和智慧医疗业务,推动两项业务独立融资。信源称,商汤科技已经与潜在投资者接洽,但两项业务的分拆与融资还处于早期阶段。
2022年,商汤智能汽车业务收入约2.9亿元,同比增长59%,在公司总收入占比约8%,产品已经应用于蔚来、比亚迪等品牌的总计27款车型中。商汤医疗健康业务则为医院和医疗机构提供人工智能诊疗、医院管理平台和医学研究服务。
-END-
我们是一个诞生于GPT浪潮、由《第一财经》YiMagazine孵化的全新内容IP。