全球生成式AI应用全景图:AI应用进入大爆发时代算法通用数据源应用程序ai应用

(报告出品方/作者:华金证券,方闻千)

一、生成式AI应用进入大爆发时代

1)驱动因素:大模型、算力与生态的共振

生成式人工智能是自个人PC出现和互联网诞生以来最具颠覆性的技术创新,随着大模型以及ChatGPT等一系列“杀手级”应用的诞生,生成式AI在文本、图像、代码、音频、视频和3D模型等领域展现出了强大的能力。当前生成式AI的发展仍处于起步阶段,未来有望为全球经济创造数万亿美元的价值,并对各行各业的工作方式产生重大影响。在生成式AI产业突变的背后是人工智能技术数十年的积累和酝酿,其演进历程具体可分为四个阶段:

1)专家系统:上世纪50年代前后,人工智能开始萌芽,基于规则的专家系统占据主导,这一时期,使用复杂的逻辑规则,能够处理包括字符匹配、词频统计等一些简单的任务,机器翻译以及语言对话的初级产品,1966年MIT发布的世界上第一台聊天机器人Eliza可以看作生成式AI最早期的产品之一。Eliza能够根据接收到的文本,遵循简单的语法规则来模拟与人类用户的对话。与此同时,专家系统存在词汇量有限、缺乏上下文和过度依赖规则等缺点,生成创造性内容的能力非常有限;

2)机器学习与神经网络:1980年美国的卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习在全世界兴起,20世纪90年代以后,神经网络作为一种新的生成人工智能方法出现了。神经网络受到人脑的启发,能够以基于规则的系统所不能的方式从数据中学习,带来了AI技术的突破,AI可以开始基于神经网络创建逼真和有创意的内容;

3)深度学习:2012年后,深度学习在人工智能领域中的应用将生成式AI带入了一个新的高度。深度学习作为一种基于神经网络的机器学习方法,通过大规模的数据特征学习,对不同场景具备很强的自适应性,同时可以通过增加层数和节点数,实现对更复杂的问题的解决,提升了模型的准确性和真实性,并且基于分布式计算和GPU加速等技术,能够训练更大规模的数据和更大尺寸的模型。直到现在,生成式AI依然建立在深度学习的基石之上;

4)大模型:2017年,Google发布著名论文《AttentionisAllYouNeed》,提出了基于一种新的神经网络——Attention注意力机制所构建的模型Transformer,2018年OpenAI和谷歌分别推出了GPT模型以及BERT模型,均是在Transformer的基础上构建,Transformer及GPT模型标志着生成式AI在文本领域的重大飞跃。与此同时,伴随着VAEs、扩散模型、神经辐射场、CLIP等一系列生成算法和多模态模型的不断成熟,生成式AI的时代正式开启。

模型、算力、生态推动为AI应用进入大爆发时代:1)算法及模型的快速进步:2017年Transformer模型及2022年ChatGPT的发布标志着GenAI在文本领域的重大飞跃,并在多项能力上超越了人类基准,随着未来更强大的语言大模型(如GPT-5),以及多模态大模型和视觉大模型的技术突破,将带动AI应用的持续进化。2)算力基础设施将更快、更便宜:虽然短期内大模型训练需求的激增导致了算力成本的持续上涨,但是随着英伟达算力芯片的不断更新迭代,微软、亚马逊、谷歌等在AI云服务资本开支的不断加大,AI应用的发展将得到更加强有力的支撑。3)AI生态的逐渐成熟:AI组件层(AIStack)的完善和产业分工细化,为AI应用在模型训练、数据整合、应用开发、应用部署等环节提供全生命周期的支撑。

随着大模型家族的不断丰富,出现了单向/双向、开源/闭源等不同的技术路线。

1)单向/双向:在Transformer模型2017年诞生之后,2018年OpenAI和Google发布的GPT-1和BERT采用了Transformer不同的框架,6月OpenAI发布的GPT-1仅使用了Transformer的Decoder框架(单向架构),10月,Google发布的BERT模型采用Transformer的Encoder框架(双向架构),作为一个拥有3倍GPT参数量的更大体量的语言模型,BERT在当时的多项测评以及业内影响力等方面,要领先于GPT的初代版本。2020年,随着GPT-3的惊艳表现,单向模型在语言生成方面的优势开始展现(特别在大参数情况下),Decoder路线逐渐占据主导,当前主流大模型大多采用Decoder框架或大Decoder小Encoder框架。

2)开源/闭源:大模型的开源/闭源,与iPhone/Android、Windows/Linux有类似之处。包括GPT-4,以及谷歌的Bard、Claude等大模型均是闭源模型,优势在于性能强大和易于上手,目前依然是绝大多数海外主流生成式AI应用的首选;而LLaMA2、StableDiffusion,Eleuther,GLM130B,OPT,BLOOM引领的开源模型优势在于灵活性和低成本,特别llama2的发布,宣布支持商业化,让应用层的公司可以以非常低成本来使用大模型,可以基于开源模型进行私有化部署并实现差异化功能的开发。在过去的一年里,开源阵营模型的能力和数量有了显着的提高,开源框架目前也正在成为越来越多应用的选择。

目前大模型的应用已经不局限于NLP领域,包括图片、语音、视频、代码等多种模态的应用开始涌现,而大模型、生成算法与多模态等底层技术的突破成为了AIGC的质变的关键。一方面,目前大模型可以广泛适用于各类下游任务,当前已经成为了AIGC的底层框架。许多跨领域的AI应用均是构建于大模型之上,能够解决多任务、多场景、多功能需求,支撑各种模态的生成;另一方面,包括生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(DiffusionModel)、神经辐射场(Nerf)等快速涌现的生成算法,以大模型为基础,能够创造出文字、图片、语音、视频、代码等各种模态的内容,而基于此之上的多模态应用开始涌现。

在语言大模型和多模态多模态大模型快速取得质变的同时,视觉领域的基础大模型VisionTransformer(VIT)在2020年诞生后,近三年语义分割、目标检测、图像分类、实例分割等主要视觉任务上的能力均有明显提升。VisionTransformer(VIT)于2020年由Google提出,可以看成是Transformer的图形版本,在尽可能少的改造下将标准的Transformer模型直接迁移至图像领域变成VisionTransformer模型。VisionTransformer最初用于处于图像分类任务,2020年很多后续的视觉模型都是基于VIT建立。为了将Transformer模型适用于图像,VIT将图像切分成很多子块并将这些子块组成线性嵌入序列,然后将这些线性嵌入序列作为Transformer的输入以模拟在NLP领域中词组序列输入。

当前视觉大模型相当于20年前后的语言大模型:1)Transformer于2017年由Google提出,VisionTransformer于2020年提出;2)当前最大的语言模型已经超过万亿参数量级,当前最大的视觉模型刚刚达到百亿参数量级;3)从GPT-2(2019)开始,语言模型开始具备通用能力,而当前视觉模型基本仍只能处理特定视觉任务。

巨头持续加码算力基础设施,未来AI算力将更快、更便宜,并更好的支撑应用层的快速发展。多年来,英伟达GPU性能的突破的基本遵循摩尔定律,GPU的晶体管数量每两年增加一倍。近年来,随着芯片架构的进步以及张量核心和Transfomer引擎等功能的引入进一步提高了英伟达GPU的吞吐量和效率,GPU进化的速度超越了摩尔定律。同时除了硬件之外,英伟达围绕CUDA构建的软件生态系统,为开发人员提供端到端的解决方案,简化了人工智能应用的开发、部署和管理,已经成为了各行业人工智能的操作系统层。除英伟达外,全球科技巨头均在加速算力侧的布局,其中软件厂商开始自研芯片,而硬件厂商则在搭建算力平台,包括微软、亚马逊、谷歌、甲骨文和Facebook等软件及云服务巨头正在加大对AI算力云服务的资本开支,并提供更丰富的AI云服务模块、涉及NLP、机器学习、计算机视觉等各个领域;另一方面,微软、亚马逊、谷歌等均在加大自研AI芯片的投入。因此虽然短期来看,大模型训练的需求的急剧增加推高了算力成本,但随着未来芯片性能的快速进步以及AI算力供需的逐渐平衡,应用层的发展将得到更好的支撑。

随着GPT以及扩散模型等底层模型和算力能力的突破,生成式AI应用在近3年来取得了跨越式的发展。当前时点,B端应用场景逐渐成熟,AI应用即将进入全面商业化阶段。

3)2023:C端应用面临洗牌,B端应用即将进入全面商业化。23年生成式AI在基础模型实现了持续的突破,GPT-4发布的大语言模型在多项任务上进一步提升,而开源模型Llama为初创企业和其他企业提供了一个强大的免费选择,和OpenAI的闭源模型阵营形成竞争。在模型能力快速进化的同时,一方面是各类生成式AI的项目数量开始激增,另一方面,B端应用在处在商业化的前夜,自3月微软发布了基于GPT-4的AI办公助手officeCopilot,此后包括企业服务、营销、低代码、安全、教育、医疗、金融等领域的AI应用开始陆续发布。7月份,Microsoft365Copilot公布定价,为每个用户30美元/月,同时全球CRM龙头Salesforce宣布正式向所有用户开放AI产品,并给出了单个产品每用户每月50美元的定价。随着两大软件巨头AI功能定价发布,AI应用将正式进入商业化落地阶段。

年初以来,海外科技股在AI引领下持续上涨,AI算力基础设施层公司率先受益于AI产业浪潮,其中英伟达是AI“掘金买铲”逻辑的核心受益者,其次为微软、Google、AWS、Oracle等头部云服务厂商和大模型厂商。当前生成式AI中的很大部分收益流向了基础设施层,根据海外风险投资机构AndressenHorowitz的粗略估算,应用厂商平均需要将20-40%的收入支付给云服务商或大模型厂商,同时大模型厂商通常也会将近一半收入用于支付云基础架构。因此总体上,当前生成式AI总收益的10-20%流向了云服务商,其中大部分集中三朵云上:亚马逊云(AWS)、谷歌云(GCP)和MicrosoftAzure。而在更底层的则是英伟达的GPU,其主力AI芯片A100、H100承载了绝大多数AI模型训练与开发,占据AI服务器硬件成本的近90%,英伟达凭借强大的芯片性能以及CUDA软件生态系统,围绕AI算力建立了深厚的护城河,毫无疑问是本轮生成式AI的最大受益者。此外包括网络设备(Marvell、Arista、博通),数据存储(MongoDB、Teradata、Snowflake),服务器(Smci)等环节的基础软硬件厂商也均有不同程度的受益。

OpenAI在大模型上依然具备统治级地位,同时基于开源模型项目数量正在快速增长。根据开发者社区Replit的数据,截止2023年二季度,95%以上的应用项目均是基于OpenAI的模型来构建,而包括Cohere、Cohere以及Google在内的其他模型合计占5%。同时,开源模型的数量正在快速增长,HuggingFace和Replicate作为开源模型的API和SDK提供商,是开源模型的重要入口。23年二季度,Replit平台上开源模型的项目超过5000个,相较于Q1增长了141%,其中超过70%的项目使用了HuggingFace,但Replicate的使用量增速更快,Q2相较于Q1达到了约6倍的增长。此外,截至23年二季度,Replit上有近25000个活跃的LangChain项目,其中2万个是在二季度创建的,比一季度增长了近4倍。

3)应用框架:应用的四大赛道与产业逻辑

生成式AI应用按应用领域可以分为:通过工具,通用软件、行业软件、智能硬件四大类。具体来看:1)工具型应用:包括聊天机器人、搜索引擎、文本工具、AI作画以及代码工具等,应用领域主要集中在C端,产品的同质化程度较高,对底层模型的能力存在高度依赖,目前C端应用正进入第一轮洗牌阶段;2)通用软件:主要包括办公软件、企业服务、IT运维、软件开发、网络安全、数据智能等领域,各个赛道上均已出现标杆产品,大多数是智能助理(Coplilot)的形态,预计将在四季度进入商业化落地的关键阶段;3)行业软件:涉及金融、医疗、教育、工业、游戏、法律等多个行业,行业间差异化程度较大,2B场景下产品目前成熟度仍低于通用软件,金融、医疗等头部厂商开始打造垂类大模型,未来对行业数据价值的充分挖掘是竞争的关键;4)智能硬件:汽车、机器人、智能终端等,无论智能驾驶还是机器人均具备巨大的市场空间,当前的瓶颈在于感知层与决策层,需要计算机视觉等底层技术的进一步突破。

工具型应用自去年下半年开始迎来爆发,主要产品包括聊天机器人、搜索引擎、文本工具、AI作画以及代码工具,电商、营销、设计是比较常见的应用场景。工具型应用的产品属性决定了对底层模型存在的高度依赖,竞争的同质化程度较高,主流应用厂商开始寻求差异化的定位并且开始自研底层大模型。目前,聊天机器人、文本生成、代码生成等领域的工具大多是基于GPT-4,但产品功能上与GPT-4重叠度较高,比如文本工具JasperAI虽然集成了GPT模型的能力,但由于自身的场景化的壁垒不够,因此也在GPT-4的冲击下,流量开始明显下滑。而AI作画应用普遍基于扩散模型,虽然DALL-E2的发布早于MidJourney,但是随着模型能力和视觉表现上的提升,MidJourney超越了DALL-E2成为了目前最流行的文生图在线工具。目前的主流工具型应用一方面会更多寻求差异化定位,比如Character.AI、InfectetionAI定位于主打陪伴和虚拟角色的聊天机器人,另一方面也在正在打造自己的大模型。工具型应用自去年下半年以来经过爆发式增长期,在6月ChatGPT访问流量首次出现下降,在新一代大模型技术迭代前,行业正在进入第一轮的洗牌期。

从工具型应用的几个应用领域具体来看:

1)聊天机器人:ChatGPT目前仍是流量最大的AI聊天机器人,虽然在今年6-8月流量有小幅下降,但总体来看,依托于底层模型的强大能力,市场地位仍非常稳固。另一类是主打陪伴,能够创建虚拟角色的聊天机器人,代表有CharacterAI以及InfectetionAI的聊天机器人PI,这类机器人更注重人格属性,与ChatGPT形成差异化竞争,用户可以完全自己创作角色来满足社交、情感、陪伴等需求,目前这类应用的流量还在稳步增长。这一领域的头部厂商大多在开发自己的大模型,其中InflectionAI表示计划打造一个包含大约2.2万块英伟达H100芯片的计算集群,总计算量估计是用于训练GPT4全部计算量的3倍。未来聊天机器人更具前景的应用是集成于文档、网页、知识库等具体的应用环境中,以AI助手(Copilot)的方式与用户进行交互,包括回答问题、提供建议、执行任务等,这也是这类产品未来演进的主要方向。

2)搜索引擎:生成式AI与搜索引擎的结合具体体现在,传统搜索引擎主要基于关键词匹配,而基于大模型的搜索的核心在于意图理解和内容生成,具备了整合、提炼、串联信息的能力,能更好地应对开放式问题。今年2月微软将生成式AI整合到了自家搜索引擎中,并命名为“NewBing”。在接入了之后GPT,Bing访问量虽然有一定程度的增长,但目前来看还远未能撬动谷歌在搜索引擎市场的绝对领先地位,同时谷歌也推出了GoogleBard来应对NewBing的冲击,除了微软和谷歌等巨头之外,目前硅谷还有不少AI初创企业投入到了搜索引擎这一赛道。

4)AI作画:主流三大文生图工具为DALL-E2、StableDiffusion、Midjourney,其中DALL-E2与MidJourney是闭源模型,可以实现在线访问,使用门槛低,用户输入一定提示词后即能实现文生图。虽然DALL-E2的发布早于MidJourney,但是随着MidJourney在视觉表现上超越了DALL-E2,成为了目前最流行的文生图在线工具。StableDiffusion主要走开源路线,可以在用户本地部署与运行。目前开源和闭源工具在商业模式上也存在较大差异,MidJourney能够通过向用户直接提供订阅服务来收费,而StableDiffusion的基础模型免费,主要通过为企业提供定制模型来实现商业化。

5)编程工具:GPT-4自身的在编程能力上相较于之前版本有了很大程度的提升,除了代码生成能力之外,在容错空间更大的重构代码、代码测试以及修改bug等环节得到了更频繁的应用,能够带来研发过程中显著的效率提升。同时包括Github、HuggingFace、Replit等开发者社区今年以来的项目和流量大幅增长,今年3月Github发布了接入GPT-4的新版本编程辅助工具GithubCopilotX,在之前的代码生成等基础功能上增加了语音扩展、智能文档、自动告警、自动扩写等功能,是市场上最先进的AI辅助编程工具。

目前生成式AI在游戏、法律、教育、电商等C端场景有较多的结合,而在医疗、金融、工业等B端场景下生成式AI产品的成熟度仍然偏低。在行业类应用场景中是AI助手(Copilot)同样得到了广泛应用,而未来在金融、医疗、工业等领域,最具前景的应用来自于数据挖掘和知识洞察(Insight)类工具。同时,相较于通用大模型,垂直行业大模型在金融、医疗等领域有着更加深度的应用,一是由于安全及隐私保护等要求,行业数据大多存储在本地,通用大模型在缺乏必要的训练数据,二是垂直行业的数据量级大,涉及系统又比较复杂,通用大模型在解决专业问题的能力上不如垂类大模型。包括彭博社推出的金融大模型Bloomberg,以及Meta公司推出的蛋白质大模型ESMFold均证明了垂类大模型的专业性能要超过通用大模型,目前各行业头部厂商也在开始自建垂类大模型。

1)金融:生成式AI技术在金融领域的主要应用为数据分析工具,通过对金融大数据的挖掘来实现知识洞察,典型应用包括证券领域的智能投顾,银行领域的智能风控等。其中,证券侧重于智能投研,功能包括研报生成、财务数据查询、盈利预测、投资组合建议等代表性产品有金融数据分析工具FinChat等;银行则侧重智能风控,通过对客户的信用历史、行为特征等数据进行分析,挖掘风险因素,实现信贷风险、反欺诈、反洗钱等行为预警,目前主要有开源模型FinGPT。同时,今年彭博社推出了专为金融行业从头打造的500亿参数大语言模型BloombergGPT,训练数据来自于彭博社的财务数据,涵盖了金融领域的一系列主题,生成了7000多亿个标签的大型训练语料库。BloombergGPT在金融领域的任务普遍拥有着超过通用大模型的表现。

3)教育:生成式AI目前主要应用于面向C端的语言学习和学习工具场景,目前率先实现商业化。其中,语言学习龙头厂商Duolingo基于GPT-4推出的Max版本新增了ExplainMyAnswer和Roleplay两项功能,订阅价格翻了4倍,同时带动了Duolingo股价的上涨,年初至今涨幅最高超130%;学习工具Khanmigo定价9美元/月,Q-Chat订阅为7.99美元/月,CheggMate计划定价在15.95美元-19.95美元之间。此外,在线教育场景旨在改善其现有功能,仍处于探索阶段。

4)工业:当前大模型的应用主要聚焦在研发设计中的创成式设计、草图生成等辅助类设计的应用,以及运维管理中业务流程信息化CRM、ERP等软件,生产制造环节由于生产环境的安全性与稳定性要求较高,生成式AI技术应用还未完全成熟。目前,工业大模型参与者主要包括工业软件厂商、互联网科技厂商、平台厂商等,但由于工业场景的复杂度,很多数据不可读取,因此工业软件厂商、平台厂商通常与具备大模型能力的互联网科技厂商进行合作。

6)法律:诉讼文书的制作和“示意证据”的生成是目前AI+法律应用最广泛的领域。其中,诉讼文书的制作是AI最早的应用领域,能够有效提高法律文书的审查与制作效率与准确性;“示意证据”能够以生成文本、图片、视频、音频、模型的方式展示证据,辅助司法人员直观地观察和理解证据。

AI+智能硬件:目前生产式AI与智能硬件的结合主要分为两个方面:一是个人助手,应用场景包括智能座舱、智能音箱、家用机器人等各类智能终端,相较于过去的语音交互模式,大模型和生成式AI技术提升了感知和生成能力,进而带来了用户体验的提升,但是总体而言产品门槛相对较低,另一类则为数字代理AIAgent,主要应用包括自动驾驶、智能机器人等,具备更加广阔的应用空间。AIagent能够感知环境、进行决策和执行动作的智能实体,接收输入数据(例如传感器信息、文本、图像等),通过分析和处理这些数据,理解环境和任务要求,并做出相应的决策和行动。目前AIAgent在感知与决策能力上仍存在瓶颈,未来突破的关键在计算机视觉等底层技术的突破。

2)机器人:生成式AI对于人机交互能力的提升将率先促进人形机器人、服务机器人成为“具身智能”的载体,而工业机器人由于工业领域的环境复杂度较高,以及与人交互需求较低,更依赖于机器视觉、神经网络等技术的突破。其中,人形机器人已经初步实现商业化应用,1Xtechnologies研发的EVE实体机器人已经作为安保机器人投入使用,而下一阶段将在医院、养老院等场所投放;服务机器人面向C端,通常应用于清洁、外送、商场等场景,通过生成式AI实现语音、图片等多模态方式输入,预测并理解用户当下情感,及时作出反应,旨在降本增效。主要有礼宾机器人Connie,餐饮机器人Adam、自主安全机器人ASR等。

B端即将进入全面商业化阶段。7月微软Office365Copilot,SalesforceEinsteinAI等海外标杆AI应用定价公布,且定价超出预期。其中,面向Office365E3、E5、商业标准版和商业进阶版的订阅商户,Office365Copilot的定价为每个用户30美元/月。相较于Office主线产品15-30美元/月的定价,此次针对AI功能的单独定价显著超出预期,最高提升了2倍以上。同时全球CRM龙头Salesforce宣布正式向所有用户开放AI产品,服务GPT和销售GPT两个独立模块分别单用户每月付费为50美元。此外,Palantir、PALOALTONETWORKS的AI产品已经在实际场景重得到应用且已经带来相应的收入贡献,四季度AI应用将正式进入商业化落地阶段。

二、生成式AI应用细分赛道梳理

1)AI+办公软件

办公软件通常包含了文字、表格、演示文稿(PPT)等工具,是本轮生成式AI浪潮中产品逻辑变化最大的细分领域之一。目前主流的AI+办公应用可以分为两大类别:一类是办公套件的AI助手,主要有微软Copilot和谷歌DuetAI,目前全面嵌入了MicrosoftOffice及Googleworkspace办公套件,并已经初步实现商业化;另外一类是单点AI工具,通常包括了文本类的NotionAI、JasperAI、CopyAI、Anyword,表格类的SheetAI、演示文稿类的TomeAI、SlidesAl等,此外还有许多功能更加细分的产品,比如笔记、思维导图、简历制作,协同办公等工具,目前常见的AI+生产力工具已经达到了上百种,这也是AI+应用中数量最多的一类。具体来看:

2)电子表格类:这一领域目前尚未出现大量类似NotionAI这类文本工具,主要原因在于电子表格的核心在于计算,目前主要的创新点是将电子表格合并到文档环境中以及强化电子表格的代码和自动化计算能力。目前Excel的领先地位仍难以被撼动,其最大竞争对手是GoogleSheets,功能上基本保持一致,主要区别在于在线分发,可以简化协作;

3)演示文稿类:生成式AI能够帮助使用者快速构思创作框架并流畅展开内容创作,这一领域中Powerpoint和Slides是最常用的演示文稿工具,新兴工具包括GammaAI、ChatBA、SlidesAI、TomeAI等,其中GammaAI、SlidesAI强调模板功能,内置多种主题库并提供图文、视频等创作素材,而Tome为AI原生应用,能够根据自然语言提示生成整个幻灯片,对各个幻灯片进行修改或添加新幻灯片。

AI生产力应用普遍依赖大模型的能力,功能同质化程度高,办公套件未来的优势仍将不断强化。一方面,AI生产力应用,特别是文本写作类需要直面OpenAI的竞争,许多工具本质更多是对底层大模型的“套壳”后的简单应用,本身不具备太高的门槛。在GPT-4出台之后,对文本类应用造成了直接了冲击,包括这一领域的头部应用JasperAI,随着GPT-4的发布,Jasper网站的访问流量在短短3个月内下降了近40%,并在今年在7月开启裁员;另一方面,微软Copilot和谷歌DuetAI等办公套件仍具备庞大的用户基础,且随着功能的不断丰富,将直接冲击到单点的AI办公应用,同时考虑办公套件工具存在较强的网络效应,未来这一赛道微软仍将占据明显的优势。

AI+办公软件具备明确的商业化前景,微软Copilot定价的公布预示着办公是AI在B端商业化落地最快的领域之一。近期微软在全球合作伙伴大会上宣布,面向Office365E3、E5、商业标准版和商业进阶版的订阅商户,Microsoft365Copilot的定价为每个用户30美元/月,相较于不同版本每用户每月12.50美元到57美元定价,365Copilot涨幅达53%至240%,超出了此前市场的预期。在此之前微软针对数百家大客户进行了365AI功能的内部测试,这表明核心企业用户在使用365Copilot的过程实现了生产力的显著提高。横向对比其他AI工具,NotionAI只提供笔记服务收费19.8美元一个月,而JasperAI则是每用户49美元每月,而微软Office365Copilot包含了全部办公套件的AI功能,从定价来看相较于同类型产品并未明显偏高,明确了其他可对标办公类应用的商业化前景。

2)AI+创意工具

创意工具包括了图片、视频、音频、3D模型等AIGC应用领,在艺术、设计、娱乐、媒体、电商等领域有非常广泛的应用。在多种模态的生成中,现阶段最具前景的是图片和3D模型的生成。创意工具的核心在于内容的生成,用户会自动选择最优质的内容,因此应用公司必须在底层模型和算法上具备很强的能力。当前多模态技术还处于早期,市场格局未完全确定,在英伟达、谷歌、Adobe等巨头进入同时,包括Midjourney等公司同样拥有一席之地。

2)视频:视频生成目前在技术上成熟度不高,更多基于图像生成的算法,除了视频生成之外还包括了视频编辑如画质修复、视频特效、视频换脸、视频剪辑等应用,代表应用有DeepfakesApp、VideoGPT、GliaStudio、Make-A-Video、Imagenvideo等。

4)3D模型:3D模型生成还处于早期,其中这一领域关键算法神经辐射场(NeRF)于2020年于ECCV会议上提出,能够基于2D图像中生成3D图像或场景,目前已经成为3D模型构建的主流算法,并广泛应用于游戏、数字人、虚拟现实、增强现实、电子商务等领域,未来具备广阔应用空间,代表应用包括Magic3D、LumaAI、DreamFusion。

5)多媒体工具:综合了到图片、视频、3D模型等多模态生成的多媒体套件产品,代表为AdobeFirefly。

3)AI+企业服务

销售GPT主要针对销售人员,功能包括电子邮件、通话摘要的自动生成,并能够为销售提供销售见解,跟进建议,后续步骤指导等。具体包括:1)电子邮件:每次客户互动自动生成个性化且包含数据的电子邮件,销售只需单击一下,即可从SalesCloud内部、或通过Gmail和Outlook自动生成包含CRM上下文的个性化电子邮件,精简销售过程中耗时但关键的步骤;2)自动记录和总结通话:通过自动转录和总结通话以及后续行动来帮助提高销售人员的工作效率,从而将销售人员从手动记笔记中解放出来;3)销售助理:总结销售周期的每一步,从客户研究和会议准备到起草合同条款,同时自动保持CRM的最新状态,为销售提供销售见解,跟进建议,后续步骤指导等。4)客户研究:针对新客户或潜在客户,协助销售工作,完善公司简介,提供公司最近的新闻,根据客户动态拓展合作机会。

4)AI+网络安全

大模型/生成式AI对于网络安全行业的影响与其他行业有所不同,AI不仅仅是对于安全产品形态本身带来改变(防守侧),而且能够通过大幅降低了安全攻击的门槛,赋能攻击方(攻击侧),加剧安全威胁,进而带来用户安全预算/行业总需求的提升。大模型、GPT、生成式AI技术将大幅降低黑客攻击的门槛,包括批量钓鱼邮件生成、批量漏洞挖掘、批量恶意代码生成等,将显著加剧整体威胁态势,特别是自从ChatGPT推出以来,通过电子邮件网络钓鱼的数量有显著增加。同时,监管侧对于文字、图像内容的监管和审查将成为重中之重,内容安全、数据安全、流量可视等监管侧需求也随之提升。

5)AI+IT运维

ServiceNow目前已经发布了生成式AI解决方案GenerativeAIController和NowAssistforVirtualAgent。ServiceNow的生成式AI的功能集中在两个关键领域:1)意图理解与语言生成:在生成式AI的支持下,ServiceNow平台可以理解人类语言,并解释用户问题、投诉或请求背后的意图;帮助服务交付人员找到更有效地完成工作,更快地解决客户问题所需的信息;2)知识综合和流程自动化:ServiceNow能够总结和综合信息,从而更快地为员工或客户提供支持,例如,如果一名员工投诉一台电脑反复死机,ServiceNow的运营管理平台可以将该投诉综合为事件,为用户提供技术支持,或促成内部/外部技术人员的协助。Servicenow目前已经发布了生成式AI产品路线图,今年9月的新版本将包括AI增强的虚拟问答助手、加速配置和扩展工具,2024年新版本将包括完整的自动化服务、自动化知识创建,以及为管理员提供生成式人工智能。

Datadog可监控和跟踪GPT及其他大模型的token的消耗,帮助用户对大模型的使用成本进行实时监控。OpenAIAPI的使用主要根据token的消耗进行计费,Datadog通过跟踪总token消耗、每个请求的平均token数量以及每个请求的提示和完成token的平均数量,帮助用户了解OpenAI使用的主要成本驱动因素,有助于用户发现OpenAI成本的峰值,并监控哪些请求、团队和应用产生的成本最高。

6)AI+软件开发

生成式AI具备很强的代码生成能力,有望重塑软件开发产业格局。一方面,各类新兴的代码生成工具出现,包括GPT-4自身就具备很强的编程能力,同时包括GithubCopilotX。GPT-4在编程能力上相较于之前版本有了很大程度的提升,除了代码生成能力之外,在容错空间更大的重构代码、代码测试以及修改bug等环节得到了更频繁的应用,能够带来研发过程中显著的效率提升。同时包括Github、HuggingFace、Replit等开发者社区今年以来的项目和流量大幅增长,今年3月Github发布了接入GPT-4的新版本编程辅助工具GithubCopilotX,在之前的代码生成等基础功能上增加了语音扩展、智能文档、自动告警、自动扩写等功能,是市场上最先进的AI辅助编程工具。

另一方面;低代码平台(LCAP,Low-CodeApplicationPlatform)与AI的结合能够使开发人员能够通过少量编程或者无需编程,通过拖放图形界面或自然语言等可视化方式,来实现快速开发和应用部署。目前低代码市场的主要参与者,包括微软、Salesforce、ServiceNow等企业服务巨头和OutSystems、Mendix等第三方低代码厂商,目前微软的AI+低代码工具凭借自身在AI上的技术储备和产品集成方面的优势,在行业中处于领先地位。此前微软低代码套件PowerApps就是GPT-3首批商业化应用,让开发人员能够通过自然语言语句简单地生成业务查询和逻辑,同时PowerPlatformCopilot与其他Microsoft产品(例如Office365、Dynamics365和Azure)以及第三方应用程序和数据源无缝集成,在整体解决方案上也具备明显优势,目前微软已经是企业使用率排名第一的低代码平台,此外Salesforce、ServiceNow两大企业服务领域的巨头也具备非常有竞争力的低代码产品,并将AI+低代码能力其集成到自身的解决方案之中。此外,OutSystems、Mendix等头部第三方低代码厂商具备各自的优势,目前均推出了生成式AI+低代码产品。

GitHubCopilotX是作为目前最强大的编程开发工具之一,允许开发人员用自然语言来完成代码生成、单元测试、代码分析等一系列工作。早在2021年GitHub和OpenAI就合作开发了编程开发工具Copilot,用户可以在使用VisualStudioCode、MicrosoftVisualStudio、Vim或JetBrains集成开发环境,面向Python、JavaScript、TypeScript、Ruby和Go等编程语言,可以协助程序员完成自动补全代码块、消除重复代码,甚至根据代码注释生成可运行代码,底层模型由OpenAI提供支持。而今年3月发布的CopilotX是对2021年发布的Copilot进行了升级,接入GPT-4,更新的一系列功能包括:GitHubCopilotChat,可实现与AI对话完成代码生成、代码分析、单元测试、修复Bug等功能;CopilotVoice:语音扩展功能;CopilotforPullRequests:协助开发者拉取请求;CopilotforDocs:智能文档编写工具;CopilotforCLI:将自然语言翻译成终端命令。目前GitHubCopilot提供按月或按年订阅,个人为每人每月10美元,企业端为每用户19美元。

高性能应用程序开发领域的全球领导者OutSystems在2022年11月发布了全面的基于人工智能的开发、安全和质量分析工具,并于2023年6月发布了生成式AI的路线图,代号名称为Morpheus。OutSystemsAIMentorSystem包含了五大AI模块,实现了AI辅助软件开发:1)代码:辅助开发,并将其添加到开发人员的代码中,完全配置并适应业务逻辑和上下文;2)架构:负责审查代码以确保其符合关键架构标准;3)安全:负责审查代码以识别开发过程中引入的代码漏洞;4)性能:负责审查代码以识别可能的性能瓶颈并确保应用始终以最高效率运行;5)可维护性:审查应用程序代码以根除重复代码并建议重构应用程序的机会。

7)AI+数据智能

AIP在商业领域也能够实现广泛应用。根据Palantir的演示案例,AIP能够帮助某制造业企业来分析其配送中心网络在飓风的影响下是否需要加快、延迟或取消客户的订单,是否需要增加额外的卡车来提升交货量,可以采取的其他补救措施,并且AIP能够给出建议和模拟行动方案,及其估计费用,并且预测不同情况下对客户订单和收入的影响。全部过程都能够通过自然语言等方式实现交互,并且能够为决策者提供高度可视化的呈现。

8)AI+数字代理

AIAgent指在大模型支撑下能够自主理解、规划、执行复杂任务的AI系统。今年3到4月的Camel、AutoGPT、BabyAGI、GPT-Engineer、西部世界小镇等多个AIAgents集中发布引发了AIAgent热潮,特别是热度最高AutoGPT在完全无需用户提示具体操作的情况下,就能完成日常的事件分析、营销方案撰写、代码编程、甚至网站创建等复杂任务,在一定程度上展示了以大模型为基础作为来构建AI系统的能力,即大模型不仅限于生成各种文本内容,还能够解决各种通用的问题,并可以应用于各个领域。同时,目前已发布的AIAgent仍以第三方厂商为主,而OpenAI、Meta、Google等人工智能巨头也开始在布局这一领域。至今已发布的AIAgent仍以通用AIAgent居多,通用AIAgent在使用成本、速度、技术成熟度上仍存在一定的局限,能力还在不断完善中。而垂直领域的AIAgent相较于其他的通用AIAgent在结构和功能上更加简单,速度更快且成本更低,预计将实现更快的落地,比如8月初HyperWrite开发的AIAgent主要侧重于网页端,功能相较于通用AIAgent更为简单,能够完成包括订餐厅、订机票等任务,其中包括自行查找地址,填写邮编,付款完成订单等操作。

AIAgent由规划、记忆、工具三大核心功能组件组成。具体来看:1)规划(Planning):Agent需要将大型、复杂任务分解为多个小型、简单的子任务,需要调用相对应的算法来进行目标制定、目标优先级、目标分解等工作,在此基础上来分配资源和优化决策,同时Agent需要具备自我调整和修正的功能,不断优化自身的行为来持续提升决策的质量;2)记忆(Memory):Agent拥有短期记忆和长期记忆的能力,以完成信息获取、储存、保留、检索的任务,这与人类的记忆结构构成存在相似之处;3)工具(Tool):大语言模型本身具备文本理解和生成能力,代理需要调用外部API接口来执行不同的功能,包括搜索引擎、计算器、日历查询等,通过模拟人类使用工具的方式,来完成复杂的任务。

9)AI+金融

生成式AI技术在金融领域的主要应用为数据分析工具,通过对金融大数据的挖掘来实现知识洞察,典型应用包括证券领域的智能投顾,银行领域的智能风控等。与此同时,金融行业的特性决定了对比于通用大模型,垂直行业大模型在金融领域有着更加有效的应用,一是由于安全及隐私保护要求金融数据大多存储在本地,通用大模型在缺乏必要的训练数据,二是金融行业在风控、精度等方面要求较高,系统又比较复杂,数据实时性的要求很高,通用大模型的金融常识、安全性和准确性都难以达到要求,因此今年彭博社推出了专为金融行业从头打造的500亿参数大语言模型BloombergGPT,训练数据来自于彭博社的财务数据,涵盖了金融领域的一系列主题,生成了7000多亿个标签的大型训练语料库。BloombergGPT在金融领域的任务普遍拥有着超过通用大模型的表现。

银行:多用于智能风控,应用于信贷风险预警、反欺诈、反洗钱等环节。通过生成式AI技术,对客户的信用历史、行为特征及社会关系等数据进行分析,能够有效挖掘风险因素,提高欺诈行为识别的准确率、风险控制的精准度等。目前有AI4Finance开源模型FinGPT,可以应用于管理金融风险、检测金融诈骗等。营销/客服工具:营销方面:生成式AI技术不仅能够一键生成金融产品营销文案,还能主动挖掘客户需并推荐适配产品,同时创建报价和安全付款等链接,提高金融产品的营销效率。如,Lemonade的销售机器人玛雅;客服方面:可应用于信贷、理财、保险产品等多个业务环节,利用生成式AI技术分析用户情感,与用户进行多轮复杂对话,为客户提供精准信息。主要产品有Helvetia的AI客服Clara、Kyber的自动化保险助手等。

FinChat目前实现了C端收费,并根据提问次数和功能的不同分为免费和付费两个版本,同时对于企业用户还可提供API接口进行产品自建。具体地,1)个人用户:免费版本每天10次免费提问,包括财务分析、新闻点评、估值分析等基础功能;付费版本20美元/月或者200美元年,在免费功能的基础上扩充了股票筛选器和盈利日历功能,并且问答次数提升至50次。2)企业用户:包括个人版的全部功能,同时提供关键绩效指标和细分数据,并支持外部数据导入,且能够为企业提供API接口自建AI产品,收费标准和提问次数独立独立确定。

10)AI+医疗

AI+医疗通常应用于医药研发、医院诊疗、医疗器械等场景,其中化合物合成、靶点发现等为本次生成式AI变革的新应用,电子病历、辅助问诊等医院诊疗为AI常用场景,CT、MRI等医疗器械在生成式AI赋能下进一步增强。AI+医疗参与者众多,除了谷歌、微软等科技巨头的加入,还包括Sensely、Enlitic等医疗科技公司、AbSci、Exscientia生物医药初创企业,以及赛纽仕等CXO企业,市场较为分散。

1)医药研发:生成式AI的数据生成、预处理等功能给药物发现中的靶点发现、化合物合成带来了突破性进展,而化合物筛选、晶体预测等临床前研究的应用还未完全成熟。通过AI大模型一是能够根据所需功能和结构生成新型小分子、核酸序列和蛋白质,用于判断不同维度的生物信息,同时能够在计算机中进行拟合优化,以适应特定的靶点;二是生成式AI可以生成化合物结构,并生成分子库进行虚拟筛选,但目前化合物筛选领域的应用并未完全成熟。代表性产品包括AbSci、IntegratedDrugCreation、CentaurAI等。此外,医药研发还包括临床试验、审批上市、销售等环节,利用生成式AI技术能够有效提高其生产效率。

2)医院诊疗:医院诊疗是目前AI+医疗的常用场景,但多用于电子病历、辅助诊疗、数据分析等对患者影响小、风险低的场景。一方面,院内包括电子病历、辅助问诊、导诊分诊等场景,利用生成式AI技术整理文字、图像等多模态医疗信息,自动化生成病例、药方、提供诊疗建议等;另一方面,院外包括互联网医院、保险机构等,基于生成式AI分析医疗记录、预测病情发展趋势、健康管理等,以提高数据分析效率,以及优化人机交互。主要有EpicSystems公司的电子病历MyChart和自助报告工具SlicerDicer、AWSHealthScribe、DAXExpress、HippocraticAI等。

3)医疗器械:过去AI用于包括CT、MRI等与图像类有关的诊疗一体化器械相对成熟,而生成式AI在此基础上进一步增强了处理X射线、CT扫描和MRI等医学图像的非结构化数据的能力,提高医疗影像分析的精细度。此外,AI+医疗机器人,包括手术机器人、康复机器人、辅助机器人等,通过生成式AI技术能够辅助外科医生进行手术、康复训练等,提高医疗质量。目前,主要有HeartFlowFFRcTAnalysis、MedisSuiteMR、CVI42等产品。

11)AI+教育

生成式AI在教育领域的应用根据功能的不同分为语言学习、在线课程、学习工具三个层面,而目前应用最多的是语言学习和学习工具,主要在于具有多语言理解、多轮对话能力的大模型天然适配语言学习和学习工具场景。同时,教育领域的商业化模式较为成熟,生成式AI技术的注入将为其带来价值量的跃升。

1)语言学习:语言学习是目前与生成式AI最契合的教育场景,技术和商业模式都相对成熟。通过生成式AI的多语言理解和多轮对话的能力,学习者不仅可以以多轮对话的形式进行多语言交流、听力、写作等语言训练,还可以生成评估报告并对学习者进行纠错。代表性产品有DuolingoMax、ElsaAI、AITutor等。

2)学习工具:学习工具在技术上已经具备一定的成熟度,包括拍照搜题、知识检索等场景。基于生成式AI技术,学生一是可以针对难题进行拍照搜题,识别并解析正确答案;二是对于不懂的知识点,学生可以通过对话、图片识别等形式进行答案的快速检索。目前,主要产品有Ginny、PhotoMath、CheggMate、Q-Chat等。

3)在线课程:生成式AI技术一方面,辅助教师进行课程规划,并自动生成教案以提高备课效率;另一方面,对学生进行模拟一对一辅导课程,提供个性化的支持。目前产品主要有Udemy、Khanmigo、EmbibeLens等。

生成式AI在语言学习和学习工具场景上率先商业化,在线教育场景旨在改善其现有功能,这主要与生成式AI在内容生成、多语言理解等能力有直接关系。其中,语言学习龙头厂商Duolingo基于生成式AI推出的Max版本相较Super版本新增了两个AI功能,且订阅价格也从6.99美元/月涨至30美元/月,同时也带动了Duolingo股价的上涨,年初至今涨幅最高超109%;学习工具Khanmigo功能9美元/月,Q-Chat订阅标准为7.99美元/月,CheggMate计划定价在15.95美元-19.95美元之间。

12)AI+工业

1)研发设计:研发设计端目前是生成式AI技术应用最有可能突破的细分领域,其中创成式设计、草图生成、效果图渲染等辅助类设计已经实现初步应用。一方面,生成式AI能够根据设计师提供的设计约束条件,包括设计材料、载荷位置等,以更快地速度和更少的错误率生成设计方案,提高研发设计效率;另一方面,生成式AI助力草图绘制、结构设计仿真等环节,能够根据工程师的需求生成设计草图,同时快速读取文本数据并提取所需特征及信息,降低图像生成、数据处理等环节成本。目前,Dassault、PTC、SIEMENS、Autodesk等厂商在其主流的CAD产品中内置了创成式设计模块,且具备AI辅助创建草图功能。

一是需求分析预测,工程师可以通过自然语言交互提取历史数据、查找产线信息等,并根据对应数据、信息进行关联分析以制定生产计划,提高生产效能。二是产品质量检测,包括增强视觉检测能力、缺陷样本生成、检测报告生成。其中,增强视觉检测;使用AI大模型提高模型的泛化能力,提高视觉检测在质检、安全监测的精确度;缺陷样本生成:生成式AI能够生成模拟检测图像缺陷样本,提高工业检测准确性;检测报告生成:自动检测并对结果进行分析,同时生成检测报告;三是生产计划调度,主要应用于工业生产排产与调度,利用AI大模型能够优化工业生产的排产、生产、物流调度等流程,提高生产效率;四是自动化控制,基于自然语言自动生成PLC控制代码,提高开发效率。

3)运维管理:生成式AI赋能工业产品研发、生产、服务和管理过程中业务流程信息化的工业软件,包括CRM、ERP、SCM、QM等运维管理类软件,大幅提升工业管理效率。目前,CRM、ERP等管理类软件应用相对成熟,其中,CRM代表厂商有Salceforce、Sprinklr、HubSpot等;ERP主要包括微软Dynamics365Copilot、SAP等。AI+应用参与者包括工业软件厂商、互联网科技厂商、平台厂商等,由于工业场景的复杂度,很多数据不可读取,因此工业软件厂商、平台厂商与具备大模型能力的互联网科技厂商进行合作,加速生成式AI在工业领域的应用。由于工业场景复杂度较高,且细分领域产品类型差异较大,因此通常采用合作的方式进行工业大模型的研发。其中,工业软件厂商具备工业场景数据优势,而平台厂商具备工业机理与实时生产数据双重优势,通过与具备AI大模型能力的互联网科技厂商合作,能够快速渗透工业领域构建大模型。

13)AI+汽车

AI+汽车主要应用于智能座舱与自动驾驶两大领域,其中生成式AI技术率先应用于座舱内部用于人机交互的车载语音助手,以及自动驾驶数据自动标注、感知规控算法算法的迭代。其中,智能座舱市场格局较为分散,目前以梅赛德斯奔驰等主机厂,以及Cerence等语音开发厂商为代表的座舱语音助手已经实现了生成式AI与汽车的集成;自动驾驶AI大模型的研发主要有主机厂、科技厂商、初创公司,目前以特斯拉为代表,采用基于Transformer模型的占用网络(OccupancyNetwork)感知算法,实现了感知算法端到端的大模型架构开发。具体地,智能座舱:生成式AI主要带来了座舱内部人机交互的变革,主要体现在车载语音助手。过去座舱内的语音交互需要固定顺序的词汇激活系统作出对应指令,而生成式AI能够主动识别用户语言,包括唤醒词在语音指令不同的位置,并根据用户偏好进行反应,大幅增强用户交互体验。目前,梅赛德斯奔驰预计于今年发布的M...

THE END
1.拍照识别车型app有哪些?几款拍照识别车型软件推荐拍照识物,拍照识花,形色识花,万物识别,动物识别,植物识别,汽车识别,logo识别,识花君,万能识别,百科详情 手机扫码下载 查看详情7.拍照识物 拍照识物,拍照识花,形色识花,万物识别,动物识别,植物识别,汽车识别,logo识别,识花君,百科详情 手机扫码下载 查看详情8https://www.liqucn.com/article/289994.shtml
2.ocr图片识别技术是什么?OCR的作用有哪些?车牌识别:保险移动勘察 证件识别:保险移动勘察;出保单、借贷等录入个人信息 Vin码识别:录入VIN码解析出车型库,估算养车用车成本,对汽车做评估及金融方案 OCR的作用有哪些? 首先我们要清楚在进行图片的识别过程中很容易出现各类的问题,对于这些问题大多是来自于图片识别不出来。图片信息有很多种类型,文字、图形等等。要https://www.foxitsoftware.cn/scanner/jiaocheng/691.html
3.TL1200DT王力汽车网为您提供TL1200DT-2T 台铃牌纯电动前盘式后盘式/鼓式电动两轮摩托车价格(报价)、配件(零件)、参数、图片、免征、燃油、环保等相关信息,王力汽车网致力于打造中国专用汽车门户网站(www.cn-truck.com)https://zc.cn-truck.com/motuoche/show_811_403846.html
4.驾考常见色盲检测图,每个都很简单,看不出来就别浪费钱了驾考体检中最基础的一项是测试色觉辨别能力,看学员是否存在色弱、色盲等问题,如果无法识别出红色和绿色,报名考驾照就是在浪费钱了。今天我们就盘点几个驾考中常见的色盲图,这些色盲图都很简单,如果连它们的图案都看不出来,就不用着急报名了。 第一张,7 这张图片的内容很简单,它的图案就是一个数字“7”。这张图https://k.sina.cn/article_7573885134_1c37050ce00100up2h.html
5.汽车指纹锁多少钱?汽车指纹锁怎么安装设置→MAIGOO知识摘要:汽车指纹锁多少钱?汽车指纹锁价格一般是多少?汽车加装指纹锁的好处有哪些?汽车指纹识别控制系统是一种通过识别指纹来控制汽车启动的装置。在启动车辆之前,系统会对使用者进行指纹识别身份验证,如未授权者使用车辆将无法启动汽车。如果你给车装一个指纹识别系统那就可以体面的拒绝别人跟你借车的要求了。 https://m.maigoo.com/goomai/167039.html
6.汽车识别技术矢量图插画正版商用图片12b6f7摄图新视界提供汽车识别技术矢量图图片下载,另有自动,背景,相机,轿车,央视,城市,控制,数据,检测,驾驶,平,全球定位系统,鉴定,图,信息图图片搜索供您浏览下载,每张图片均有版权可放心商用,您正在浏览的图片为12b6f7https://xsj.699pic.com/tupian/12b6f7.html