20个中国大模型盘点:多个开源项目,允许商业化模态

随着ChatGPT、Midjourney等生成式AI产品的火爆出圈,在全球范围掀起AI大模型开发浪潮。国内的百度、华为、阿里、中科院、智源人工智能研究院、清华、北大、复旦等,各大科技公司、学术研究机构、高校等相继发布了大模型产品,开启“百模大战”时代。

下面「AIGC开发社区」对国内典型的大模型进行盘点,适用于金融、科技、电商、医疗、法律等行业。其中有多个是由知名高校、学术机构的开源项目并允许商业化,方便企业、个人开发者实现场景化落地打造属于自己的生成式AI产品。

百度——文心一言

文心一言是百度打造的全新一代知识增强大语言模型,具备多轮对话、文学创作、多模态生成、数理逻辑推算等技术特性,可以高效便捷地帮助人们获取信息、知识和灵感。

例如,写一篇太空旅行的市场分析报告;帮我画一枝晶莹剔透的牡丹花;量子计算机能帮移民火星吗?

华为——盘古大模型

华为盘古大模型由CV,NLP,多模态,预测和科学计算5大基础模型组成,可实现文本生成、图片生成、代码生成、图片理解、气象预测、智能助手打造等多种功能。

华为盘古大模型作为通用AI预训练模型,可以广泛应用于矿山、药物分子、铁路、气象、海浪、制造等领域,提供智能化的解决方案。

阿里巴巴——通义大模型

通义大模型是阿里大模型的统一品牌,覆盖语言、听觉、多模态等领域,致力于实现接近人类智慧的通用智能,让AI从“单一感官”到“五官全开”。

目前,阿里通过通义大模型打造了通义千问、通义万相和通义听悟3款生成式AI产品。

科大讯飞——星火大模型

科大讯飞推出的新一代认知智能星火大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务,包括语言理解、知识问答、逻辑推理、数学题解答等。

星火大模型从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。

清华大学——ChatGLM-6B

ChatGLM-6B是一个开源的、支持中英双语的对话语言模型,基于GeneralLanguageModel(GLM)架构,具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。

ChatGLM-6B使用了和ChatGPT相似的技术,针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿参数的ChatGLM-6B已经能生成相当符合人类偏好的回答。

智源人工智能研究院——悟道·天鹰

悟道·天鹰(Aquila)语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。

Aquila系列模型的中文语料来自智源多年积累的中文数据集,包括来自1万多个站源的中文互联网数据(其中99%以上为国内站源),以及获得国内权威机构支持的高质量中文文献数据、中文书籍数据等。仍在持续积累高质量、多样化的数据集,并源源不断加入Aquila基础模型后续训练中。

Aquila系列模型的源代码基于Apache2.0协议,模型权重基于《智源Aquila系列模型许可协议》,使用者在满足许可限制的情况下,可用于商业目的。

达观数据——"曹植"垂直大预言模型

"曹植"作为垂直专用的国产大语言模型,具有长文本、垂直化和多语言的特点,通过并联多种模型和知识图谱,曹植大模型支持多种语言长文本的自动化写作和多语种翻译等功能,全方位赋能长文档写作、机器翻译、语义分析审核、知识问答、text-to-SQL等场景,可针对不同行业、领域的文案需求,进行深度优化和个性化定制。

"曹植"可准确完成多类型、复杂结构的长文本写作,自动起草多种类型的文档,同时具有自动排版、智能纠错、文本润色、自动生成摘要等特色功能。还将实现多模态内容生成,如长文档中的表格、图表、图片等;支持中文、英文、法语、德语、日语、韩语等数十种语言的写作。

上海人工智能实验室——书生·浦语(InternLM)

InternLM是在过万亿token数据上训练的多语千亿参数基座模型。通过多阶段的渐进式训练,InternLM基座模型具有较高的知识水平,在中英文阅读理解、推理任务等需要较强思维能力的场景下性能优秀,在多种面向人类设计的综合性考试中表现突出。

在此基础上,通过高质量的人类标注对话数据结合RLHF等技术,使得InternLM可以在与人类对话时响应复杂指令,并且表现出符合人类道德与价值观的回复。

百川智能——baichuan-7B

Baichuan-7B是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文benchmark(C-Eval/MMLU)上均取得同尺寸最好的效果。

北京大学——ChatLaw

ChatLaw法律大模型目前开源的仅供学术参考的版本底座为姜子牙-13B、Anima-33B,使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据。

哈尔滨工业大学——本草

本草大预言模型经过中文医学指令精调/指令微调(Instruct-tuning)的LLaMA-7B模型。通过医学知识图谱和GPT3.5API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。

云知声——山海

山海大模型是最新一代认知智能大模型,拥有丰富的知识储备,涵盖科学、技术、文化、艺术、医疗、通识等领域。与她对话即可获取信息、知识和灵感,是人类的良师益友,也是灵动强大的智能助理。

OpenBMB——CPM-Bee-10B

OpenBMB开源社区由清华大学自然语言处理实验室和智源研究院语言大模型加速技术创新中心共同支持发起。

CPM-Bee-10B是完全开源、可商用的中英双语基础模型,参数容量达百亿级,利用Transformer自回归架构,在万亿级代币的海量语料库上进行了预训练,拥有卓越的基础能力。

OpenBMB系统提供了全面的工具和脚本生态系统,用于高性能预训练、适配、压缩、部署和工具开发。CPM-Bee作为基础模型,附带所有必要的工具脚本,使开发人员能够有效地利用和探索高级功能。

中国科学院自动化研究所——紫东·太初

紫东·太初跨模态通用人工智能平台是由中国科学院自动化研究所研发的以多模态大模型为核心、基于全栈国产化基础软硬件平台,可支撑全场景AI应用。依托面向超大规模的高效分布式训练框架,自动化所构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型,并开拓性地通过跨模态语义关联实现了视觉-文本-语音三模态统一表示,构建了三模态预训练大模型,赋予跨模态通用人工智能平台多种核心能力。

紫东·太初兼具跨模态理解和生成能力,具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。对更广泛、更多样的下游任务提供模型基础支撑,达成AI在如视频配音、语音播报、标题摘要、海报创作等更多元场景的应用。

虎博科技——TigerBot

TigerBot是一个多语言多任务的大规模语言模型(LLM)。根据OpenAIInstructGPT论文在公开NLP数据集上的自动评测,TigerBot-7B达到OpenAI同样大小模型的综合表现的96%。

360——智脑

360智脑是一个千亿参数大模型,涵盖十大能力数百项细分功能,目前已升级至4.0版本。360智脑具备十大核心能力,维度涵盖数百项细分功能,可覆盖大模型全部应用场景。

同时,360智脑在多模态等关键能力上完成迭代,在国内首发大模型定制AI数字人及文生视频功能,接入360旗下全端产品,重塑人机协作新范式。

上海交通大学——K2

K2是一个地球科学的开源大预言模型。首先通过收集和清理的地球科学文献(包括地球科学开放获取论文和维基百科页面)对LLaMA进行进一步预训练,然后使用知识密集型指令调优数据(GeoSignal)。

初步评估采用GeoBenchmark(由NPEE和APTestonGeology、Geography、EnvironmentalScience组成)作为基准。与具有相似参数的几个基线模型相比,K2在客观和主观任务上的表现优于基线。

智媒开源研究院——MediaGPT

MediaGPT(曾用名MediaLLaMA)首先在大规模自媒体语料上进行连续预训练,系统地学习自媒体的知识体系。然后,借助ChatGPT收集了一批关于抖音运营、短视频创作、巨量千川投放、直播运营和直播话术技巧等领域知识问题的分析和回答,并利用这些数据对模型进行指令微调,使模型习得如何将自媒体知识应用到实际场景中。

度小满——轩辕

轩辕是国内首个开源的千亿级中文对话大模型,同时也是首个针对中文金融领域优化的千亿级开源对话大模型。

东北大学——TechGPT

TechGPT是“东北大学知识图谱研究组”发布的垂直领域大语言模型。TechGPT还具备了对计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域自然语言文本的处理能力。

目前,TechGPT通过提示和指令输入方式的不同,支持单轮对话和多轮对话,涵盖了领域术语抽取、命名实体识别、关系三元组抽取、文本关键词生成、标题生成摘要、摘要生成标题、文本领域识别、机器阅读理解、基础常识问答、基于上下文的知识问答、建议咨询类问答、文案生成、中英互译和简单代码生成等多项自然语言理解和生成能力。

THE END
1.北大团队开源首个中文法律大模型智东西7月4日报道,根据Github信息,北大团队近日发布了首个中文法律大模型落地产品ChatLaw,为大众提供普惠法律服务。模型支持读取文件、录音,一键自动抽取并梳理关键信息,生成导图、图表,可视化分析;支持法律文书写作、法律建议、法律援助推荐。此外,该团队自研先验https://zhidx.com/news/38244.html
2.ChatLawChatLaw是由北京大学团队开发的开源法律大语言模型(LLM),它通过结合法律领域特定的数据集和外部知识库,旨在提高法律问题处理的准确性和效率。该模型利用先进的自然语言处理技术,能够理解和生成法律相关的咨询和解答,同时减少法律数据筛选中的模型幻觉问题。ChatLaw的设计考虑了法律语言的复杂性和法律知识更新的快速性,力图https://ai-bot.cn/sites/11444.html
3.北大兔展联合实验室发布中文法律大模型ChatLaw,为大众提供普惠调度模型给予了产品更大的可能性。通过针对训练,调度模型可以接入市场上所有主流LLM,和符合规范的业务接口能力。这使得大规模覆盖法律工作场景成为可能。 下一步:为政企提供大模型时代下的数字化升级 基于对“先验知识约束”和“调度模型”两项关键技术的沉淀,北大-兔展AIGC联合实验室已经掌握了一整套大模型时代的产品https://m.cyzone.cn/article/731575.html
4.北大团队发布中文法律大模型ChatLaw北京大学团队最近发布了名为ChatLaw的中文法律大模型,旨在为大众提供普及性的法律服务。这个模型支持接收文件和语音输入,同时能够生成法律文书、提供法律建议以及为用户推荐合适的法律援助服务。该项目在GitHub上的星数已经超过了一千,显示了其受欢迎程度和在法律科技领域的潜在影响力。(站长之家)https://www.donews.com/news/detail/8/3579225.html
5.AI法律大模型GPT法律人工智能北大法宝AI新产品将法律和人工智能大模型结合在一起,发布了智能问答、模拟法庭、智能写作、法宝智能助手、法宝来签等AI法律大模型GPT产品;并升级了智慧立法、智慧执法、智慧司法、企业法制领域的法律人工智能产品。https://ai.pkulaw.com/
6.北大元法智能系统:法律领域AI大模型落地山东引发热议!近日,北大元法智能系统正式宣布将在山东落地,标志着法律领域人工智能(AI)大模型进入新的发展阶段。这一系统,依托深度学习和自然语言处理(NLP)技术的突破,旨在提高法律服务的效率和准确性。随着法律行业对这些技术的逐步接受,北大元法智能系统的实施无疑将引领行业智能化的浪潮,改变传统的司法服务模式。 https://m.sohu.com/a/821285391_121924584
7.北大“元法大模型”智能系统公众身边的“法律顾问”搜索法律10月27日(采访),山东济南,“人才成果展”展览现场,北大“元法大模型”智能系统能够实现“懂人话”“无幻觉”的响应效果。搜索法律难题,直接给出答案,简直是公众身边的智能“法律顾问”。《生活帮》记者 刘凯 万朝雪 打开App看更多精彩内容财经热榜 AI热榜 民生热榜 股票热榜 1 证监会最新明确!事关期货市场 https://cj.sina.cn/articles/view/1893761531/m70e081fb02002pabu
8.chatlaw法律大模型官网,智法网页版入口,下载,基于中文法律条文ChatLaw 是一个基于各种中文法律条文、实际案例、判决条文所训练出来的法律大模型,可借助 AI,实现法律合同撰写、案例介绍、条款讲解、司法问题咨询等场景。ChatLaw(智法)模型由北大-兔展AIGC联合实验室和北京大学信息工程学院袁粒课题组联合发布。基于超过2亿的判例文书原始文本,以及340万条法律法规和地方政策,构建了大https://biemoyu.com/sites/chatlaw.html
9.北大法宝AIAI法律大模型,模拟法庭,让法律更智能北大法宝AI新产品将法律和人工智能大模型结合在一起,发布了一系列好评如潮的AI法律大模型产品,包括AI智能问答、模拟法庭、智能写作、AI律师以及法宝来签等。法宝AI,让法律更智能!https://www.slwxdh.com/site/1348
10.ChatLawChatLaw 北大团队发布了首个中文法律大模型落地产品ChatLaw,为大众提供普惠法律服务。模型支持文件、语音输出,同时支持法律文书写作、法律建议、法律援助推荐。 北大团队发布的首个中文法律大模型落地产品ChatLaw,为大众提供普惠法律服务。模型支持文件、语音输出,同时支持法律文书写作、法律建议、法律援助推荐。https://www.aizhinan.cn/tools/3028.html
11.chatlaw法律大模型申请内测 法律知识注入 自研先验知识约束算法,基于亿级法律领域结构化语料及专业化人工标注进行模型知识注入,确保生成内容无误,避免大模型幻觉问题。申请内测 自动化写作 写作模型基于百万级法律文书语料进行微调,一键精准归纳用户事实,自动化进行法律文书写作。申请内测https://www.chatlaw.cloud/
12.北京大学第五届法律人工智能论坛暨北大法宝25周年庆典成功举办1999年,北大法学院设立北京北大英华科技有限公司,并推出品牌为“北大法宝”的国内首个互联网法律数据库。2017年,北大法学院成立北京大学法律人工智能实验室和北京大学法律与人工智能研究中心,并在2024年完成北大元法智能系统和法宝来言大模型算法备案。可以说,北大法学院一直是法律科技科研探索的先行者。与北京大学法律学https://digi.china.com/digi/20241226/202412261622463.html
13.ChatLaw法律AI大模型使用评测分享简介:北大团队提供的专注于法律行业的大语言模型 ChatLaw—— 一个基于各种中文法律条文、实际案例、判决条文所训练出来的法律大模型。 使用场景: 法律合同撰写、案例介绍、条款讲解、司法问题咨询等场景。 模型介绍: - 该模型主要拥有 3 个系列(ChatLaw-13B、ChatLaw-33B、ChatLaw-Text2Vec),适用于多种不同场景https://hao.logosc.cn/p/1054
14.大模型时代,北大法宝的实践与展望20240130厦门市思明区人民政府联合主办,厦门市海丝中央法务区建设工作领导小组办公室支持,律新社、海丝司法大数据联合创新实验室联合承办的分论坛三——“数智时代法律科技的创新与展望”首届法律科技论坛上,北京北大英华科技有限公司(北大法宝)政法行业总监郭璐围绕数智科技对法律行业的变革性影响,发表了题为“大模型时代的实践与https://www.lvxinnews.com/details/e802040b-1816-4f31-954c-f4af04bcbf03