层出不穷的垂域微调大模型非最全汇总:12大领域57个领域微调模型概述及对垂直行业问答的一些讨论

今天是2023年9月13日,星期三,我们继续来聊聊一些话题。

社区近期对其进行了一些讨论,很有意思,欢迎加入一起讨论。

也就是说,我们对于一些具体的场景,尤其是知识变动快而且数据量少的情况,应该联合外部多种方法进行集成。

顺着领域微调这个主题,我们继续来看看大模型的汇总问题,我们已经在前面介绍过不少这类的模型,也给出了一些零散的清单。

1、DoctorGLM

基于ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora、p-tuningv2等微调及部署。

2、BenTsao(本草)

该项目开源了经过中文医学指令微调的大语言模型集,包括LLaMA、Alpaca-Chinese、Bloom、活字模型等。我们基于医学知识图谱以及医学文献,结合ChatGPTAPI构建了中文医学指令微调数据集,并以此对各种基模型进行了指令微调,提高了基模型在医疗领域的问答效果。

3、Med-ChatGLM

该项目开源了经过中文医学指令微调的ChatGLM-6B模型,微调数据与BenTsao相同。

4、BianQue(扁鹊)

该项目开源了生活空间健康大模型。结合当前开源的中文医疗问答数据集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus,基于扁鹊健康大数据BianQueCorpus,选择ChatGLM-6B作为初始化模型,经过全量参数的指令微调训练得到BianQue。

5、HuatuoGPT(华佗)

该项目开源了医疗大模型HuatuoGPT,包括基于Baichuan-7B训练得到的HuatuoGPT-7B和基于Ziya-LLaMA-13B-Pretrain-v1训练得到的HuatuoGPT-13B。

6、QiZhenGPT

该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果。

7、ChatMed

该项目开源了中文医疗大模型ChatMed-Consult,以中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集,基于LlaMA-7b采用LoRA微调得到。

8、ShenNong-TCM-LLM(神农)

该项目开源了中文中医药大模型ShenNong-TCM-LLM,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法,调用ChatGPT得到2.6w+中医药指令数据集ChatMed_TCM_Dataset,基于该数据集以LlaMA为底座,采用LoRA微调得到。

9、XrayGLM

该项目开源了中文多模态医学数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。

10、MedicalGPT

11、Sunsimiao(孙思邈)

该项目开源了中文医疗大模型Sunsimiao,该模型基于baichuan-7B和ChatGLM-6B底座模型在十万级高质量的中文医疗数据中微调而得。

12、CareLlama(关怀羊驼)

该项目开源了医疗大模型CareLlama,同时它收集了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型以促进医疗LLM快速发展。

13、DISC-MedLLM

该项目是由复旦大学发布的针对医疗健康对话式场景而设计的医疗领域大模型与数据集,该模型由DISC-Med-SFT数据集基于Baichuan-13B-Base指令微调得到,有效地对齐了医疗场景下的人类偏好,弥合了通用语言模型输出与真实世界医疗对话之间的差距。

14、PMC-LLaMA

该项目开源了医疗大模型PMC-LLaMA,包括预训练版本的MedLLaMA_13B和指令微调版本的PMC_LLaMA_13B。

15、ChatDoctor

该项目开源了医疗大模型ChatDoctor,在LLaMA的基础上训练得到。

16、MING(明医)

该项目开源了医疗大模型MING,基于bloomz-7b指令微调得到MING-7B,支持医疗问答、智能问诊等功能。

17、IvyGPT

该项目开源了医疗大模型IvyGPT,它在高质量的医学问答数据上进行了监督微调,并使用人类反馈的强化学习进行了训练。

18、PULSE

该项目开源了中文医疗大模型PULSE,该模型使用约4,000,000个中文医学领域和通用领域的指令微调数据进行微调,支持医学领域的各种自然语言处理任务,包括健康教育、医师考试问题、报告解读、医疗记录结构化以及模拟诊断和治疗。

19、HuangDI(皇帝)

该项目开源了中医大模型HuangDI(皇帝,该模型首先在Ziya-LLaMA-13B-V1基座模型的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的预训练模型,之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调,使得模型具备中医古籍知识问答能力。

20、ZhongJing(仲景)

该项目开源了中医大模型ZhongJing(仲景,该模型旨在阐明中医博大精深之知识,传承古代智慧与现代技术创新,最终为医学领域提供可信赖和专业的工具。

21、TCMLLM

该项目拟通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。目前针对中医临床智能诊疗问题中的处方推荐任务,发布了中医处方推荐大模型TCMLLM-PR,通过整合真实世界临床病历、医学典籍与中医教科书等数据,构建了包含68k数据条目的处方推荐指令微调数据集,在ChatGLM大模型上进行微调得到。

22、OpenBioMed

该项目开源了若干多模态生物医学大模型,包括多模态生物医药大模型BioMedGPT、多模态小分子基础模型DrugFM和MolFM、细胞表示学习模型CellLM等。

PromptCBLUE医疗评测基准

PromptCBLUE是一个面向中文医疗场景的评测基准,通过对CBLUE基准进行二次开发,将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务。

中文医疗模型评估基准CMB

AComprehensiveMedicalBenchmarkinChinese,其包括了不同临床职业、不同职业阶段考试中的多项选择题(CMB-Exam)和基于真实病例的复杂临床诊断问题(CMB-Clin)。

1、MeChat

该项目开源了中文心理健康支持对话大模型与数据集。模型由ChatGLM-6BLoRA16-bit指令微调得到。数据集通过ChatGPT改写真实的心理互助QA为多轮的心理健康支持多轮对话,该数据集含有56k个多轮对话,其对话主题、词汇和篇章语义更加丰富多样,更加符合在长程多轮对话的应用场景。

2、SoulChat(灵心)

该项目开源了心理健康大模型SoulChat(灵心,该模型以ChatGLM-6B作为初始化模型,经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调得到。

3、MindChat(漫谈)

该项目开源了心理大模型MindChat(漫谈,该模型采用了经过人工清洗的约20万条的高质量多轮心理对话数据进行训练,涵盖工作、家庭、学习、生活、社交、安全等多个方面,期望从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑,提高心理健康水平.

4、QiaoBan(巧板)

该项目开源了儿童情感对话大模型QiaoBan,基于开源通用大模型,使用通用域人机对话、单轮指令数据以及儿童情感陪伴对话数据进行指令微调,研发出适用于儿童情感陪伴的大模型。

1、LawGPT_zh(獬豸)

本项目开源的中文法律通用模型由ChatGLM-6BLoRA16-bit指令微调得到。数据集包括现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答,提高了通用语言大模型在法律领域的表现,提高了模型回答的可靠性和专业程度。

2、LaWGPT

该系列模型在通用中文基座模型(如Chinese-LLaMA、ChatGLM等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。

3、LexiLaw

LexiLaw是一个经过微调的中文法律大模型,它基于ChatGLM-6B架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务。无论是需要针对具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询,LexiLaw都能够提供有益的建议和指导。

4、LawyerLLaMA

该项目开源了法律领域的指令微调数据和基于LLaMA训练的中文法律大模型LawyerLLaMA。LawyerLLaMA首先在大规模法律语料上进行了预训练,让它系统的学习中国的法律知识体系。在此基础上,借助ChatGPT收集了一批对中国国家统一法律职业资格考试客观题的分析和对法律咨询的回答,利用收集到的数据对模型进行指令微调,让模型习得将法律知识应用到具体场景中的能力。

5、HanFei(韩非)

6、ChatLaw

由北大开源的一系列法律大模型,使用大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据,包括基于姜子牙-13B、Anima-33B训练而来的ChatLaw-13B和ChatLaw-33B。此外,还开源了ChatLaw-Text2Vec,使用93w条判决案例做成的数据集基于BERT训练了一个相似度匹配模型,可将用户提问信息和对应的法条相匹配。

7、Lychee(律知)

开源了中文司法领域大模型Law-GLM-10B,基于GLM-10B模型,在30GB中文法律数据上进行指令微调得到。

8、wisdomInterrogatory(智海-录问)

由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型,基于Baichuan-7B进行了法律领域数据的二次预训练与指令微调,并设计了知识增强的推理流程。

9、JurisLMs

该项目基于中文法学语料训练了一系列语言模型,包括:1可解释法律判决预测模型AIJudge,由GPT2在法学语料上进一步预训练之后,结合一个法条适用模型(一个基于BERT的分类器)微调得到,不仅能够给出判决结果,还能给出相应的法院观点;2智能法律咨询模型AILawyer,采用主动学习在少量数据上进行微调得到,可以根据用户咨询适用正确的法律法规回答问题。

10、夫子明察司法大模型

以ChatGLM为大模型底座,基于海量中文无监督司法语料与有监督司法微调数据训练的中文司法大模型,支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务

法律评测基准:LEXTREME

LEXTREME是一个多语言的法律评测基准,包含了24种语言11个评测数据集。

法律评测基准:LexGLUE

LexGLUE是一个英文法律评测基准。

1、BBT-FinCUGE-Applications

2、Cornucopia(聚宝盆)

该项目基于公开和爬取的中文金融领域问答数据构建指令数据集,并在此基础上对LLaMA系模型进行了指令微调,提高了LLaMA在金融领域的问答效果。

3、XuanYuan(轩辕)

4、PIXIU(貔貅)

5、FinGPT

该项目开源了多个金融大模型,包括ChatGLM2-6B+LoRA和LLaMA2-7B+LoRA等金融大模型,收集了包括金融新闻、社交媒体、财报等中英文训练数据。

6、FLANG

该项目开源了金融大模型FLANG。

10、FinEval

金融领域评测基准:FLARE

FLARE是一个金融评测基准,包含了金融知识理解和预测等任务。

金融领域评测基准:CFLEB

CFLEB是一个中文金融评测基准,包含两项语言生成任务和四项语言理解任务。

金融领域评测基准:FLUE

1、桃李(Taoli)

该项目开源了适用于国际中文教育领域的大模型,基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。通过多种形式的指令构造了共计88000条的高质量国际中文教育问答数据集,并利用收集到的数据对模型进行指令微调,让模型习得将国际中文教育知识应用到具体场景中的能力。

2、EduChat

1、MediaGPT

该项目开源了中文自媒体大模型MediaGPT,首先在大规模自媒体语料上进行连续预训练,系统地学习自媒体的知识体系。然后,借助ChatGPT收集了一批关于抖音运营、短视频创作、巨量千川投放、直播运营和直播话术技巧等领域知识问题的分析和回答,并利用这些数据对模型进行指令微调,使模型习得如何将自媒体知识应用到实际场景中。

1、EcomGPT

该项目开源了电商大模型EcomGPT,基于BLOOMZ在电商领域指令微调数据集EcomInstruct进行微调,在12个电商评测数据集上的人工评估超过ChatGPT。

YaYi(雅意)

该项目开源了多领域大模型YaYi(雅意,该模型在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域,上百种自然语言指令任务。

1、StarGLM

2、K2

该项目开源了地球科学大模型K2,该模型在LLaMA的基础上使用地球科学文献和维基百科数据进行预训练,然后使用GeoSignal数据集进行指令微调。

天文地理领域评测:GeoGLUE

1、TransGPT(致远)

该项目开源了交通大模型TransGPT(致远,主要致力于在真实交通行业中发挥实际价值。它能够实现交通情况预测、智能咨询助手、公共交通服务、交通规划设计、交通安全教育、协助管理、交通事故报告和分析、自动驾驶辅助系统等功能。TransGPT作为一个通用常识交通大模型,可以为道路工程、桥梁工程、隧道工程、公路运输、水路运输、城市公共交通运输、交通运输经济、交通运输安全等行业提供通识常识。以此为基础,可以落脚到特定的交通应用场景中。

1、AutoAudit

该项目开源了网络安全大模型AutoAudit,其目标是为安全审计和网络防御提供强大的自然语言处理能力。它具备分析恶意代码、检测网络攻击、预测安全漏洞等功能,为安全专业人员提供有力的支持。

1、TechGPT

该项目开源了科技大模型TechGPT,该模型面向计算机科学、材料、机械、冶金、金融和航空航天等十余种垂直专业领域,涵盖了领域术语抽取、命名实体识别、关系三元组抽取、文本关键词生成、标题生成摘要、摘要生成标题、文本领域识别、机器阅读理解、基础常识问答、基于上下文的知识问答、建议咨询类问答、文案生成、中英互译和简单代码生成等多项自然语言理解和生成能力。

2、Mozi(墨子)

该项目开源了科技论文大模型Mozi(墨子,可以用于科技文献的问答和情感支持。

本文主要对现有的一些垂直领域危险模型跟评测基准进行了介绍,一共包括12个领域,57个领域微调模型,以及若干个对应的评测数据集,供大家一起参考。

而对于行业问答这类问题,在落地过程中会有多种方式出现,对于一些具体的场景,尤其是知识变动快而且数据量少的情况,应该联合外部多种方法进行集成,这也是一些具体的经验,供大家参考。

THE END
1.两个“全国十佳”!贵州法院16个新媒体账号作品获奖12月9日上午,第十一届“金法槌奖”微电影微视频征集展播活动暨2023年度全国法院“十佳百优”新媒体账号作品颁奖会在北京隆重举行。其中贵州法院16个账号、作品获奖,两个“全国十佳”! 全国法院十佳微信账号 贵州高院 (贵州省高级人民法院) 全国法院十https://mp.weixin.qq.com/s?__biz=MzA4MjgxODMwNQ==&mid=2650281827&idx=1&sn=89212f92812d7ce87d9f635cc51d927f&chksm=86f4e0bc64dcccb289e24930187909590ead6a875f9012b5d84dc2955aa8fcc767f1274151ac&scene=27
2.喜报!全国法院“十佳百优”新媒体账号作品有我们!12月9日上午,2023年度全国法院“十佳百优”新媒体账号作品推选结果在北京揭晓。此次活动推选出了全国法院“十佳天平号”“十佳微信账号”“ 十佳微博账号”“十https://www.thepaper.cn/newsDetail_forward_29599151
3.自媒体授权的协议书(通用10篇)自媒体授权的协议书 篇4 甲方名称:___ 乙方名称:___ 根据《中华人民共和国民法典》的有关规定,甲乙双方应本着诚实、信用、平等、共同发展的原则,就网络营销代运营相关事宜达成如下协议条款,以资共同遵守。 第一条甲方委托乙方推广的营销项目、推广安排、推广的目标网站、款项、交付和推广期限等由附件载明。 第二条https://mip.wenshubang.com/xieyishu/2619621.html
4.协会章程第一条 本团体的名称是淮安市自媒体协会。 第二条 本团体是由淮安市从事网络自媒体的单位和个人自愿组成的专业性、非营利性社会组织。 第三条 本团体的宗旨:本会的宗旨是服务、自律、代表、协调。通过服务会员单位,自律管理,协调会员单位及其内外关系,促进淮安自媒体的快速、健康和规范发展。 https://www.hawma.cn/gaikuang/xiangguan/
5.视频号认证法律自媒体怎么弄,手把手教你通过认证(案例)武汉热搜传媒科技有限公司 提供的 视频号认证法律自媒体怎么弄,手把手教你通过认证(案例),微信视频号认证有诸多好处:首先,你的视频号名称旁边会多出认证标识,类似https://wuhan.11467.com/info/19615736.htm
6.网易号白皮书(1)假冒、仿冒、捏造党政军机关、企事业单位和人民团体等组织机构的名称、标识的。如“自媒体-个人”帐号名称为“XX工作室”“XX新闻联播”“平安中国”“北京发布”等; (2)假冒、仿冒、捏造新闻媒体的名称、标识,或擅自使用新闻、报道、报刊等具有新闻属性的名称信息的。如自媒体帐号含“新闻、传媒、时政、曝光”https://mp.163.com/media_static/html/handbook.html
7.自媒体运营专员任职要求多泽所始终坚持创新不辍的发展理念、紧跟国家政策法规,积极提出前瞻的法律思考、理念、建议,我们以帮助客户“管理风险、促进交易、解决争议”为己任,以促进法律正确实施、维护客户合法权益为使命,争取成为优秀的法律服务机构。 查看全部 工商信息 公司名称郑州浩展法律咨询有限公司 法定代表人李平 成立日期2023-03-08 https://www.zhipin.com/job_detail/7424191098bac3d31XN52N-9ElFT.html
8.2019级电子商务专业人才培养方案一、专业名称(专业代码) 电子商务(630801)。 二、入学要求 普通高级中学毕业、中等职业学校毕业或具备同等学力。 基本修业年限 三年。 职业面向与就业岗位 职业面向 本专业职业面向如表1所示。 表1 本专业职业面向 (二)主要就业单位及部门 1、互联网和相关服务行业从事网络客服工作; https://www.hnwmxy.com/jiaoxuekeyan/jiaoxuebiaozhunfabu/rencaipeiyangfangan/2019_r/2020/0703/6462.html
9.马化腾怒斥自媒体谣言乱象“会追究法律责任”除了马化腾外,今年5月李彦宏也深受谣言困扰,对此百度回应称:“网络上有关李彦宏先生及其家人的传言纯属子虚乌有,已收集证据向公安机关报案,坚决追究造谣者和恶意传播者的法律责任。” 谣言为何屡禁不止?人民日报:一些自媒体已沦为流量奴隶 如今,互联网大佬们的个人隐私已成为自媒体收割流量的利器。随着自媒体的野蛮生长,https://www.pencilnews.cn/d/20160.html
10.抖音直播公会任务说明(2022年5.15.31)平台在巡查过程中发现部分公会及公会主播存在违规直播的行为,通过违规直播作弊等手段获得平台任务奖励,严重破坏了平台生态。对此,平台将针对违规直播行为开展专项治理行动。具体请见:?关于违规直播行为治理说明团播账号拉新作弊治理通知 2022年1月1日起,公会月度任务将只核算视频直播场景下的开播时长及流http://www.woshizmt.cn/m/view.php?aid=3049
11.名称与合同内容不一致时怎样确定合同性质法律咨询法律解答 合同名称与合同内容不一致,当然是以合同内容为准了。其实,用不着具体的规定。实在要参考的话,可以参考6月15日《全国法院知识产权审判工作会议关于审理技术合同纠纷案件若干问题的纪要》的规定:“技术合同名称与合同约定的权利义务关系不一致的,应当按照合同约定的权利义务内容,确定合同的类型和案由,适用相应的https://news.66law.cn/ask/9701875.aspx
12.如何对网络暴力进行有效规制此外,为了防止网络运营商消极应对,立法部门还应在法律层面对网络运营商管理义务的范围加以明确。如果网络运营商因未及时应对而造成损害后果,应当明确其应承担的法律责任。 (四)规范自媒体行业 自媒体为了追求点击率,经常发布虚假或夸大的信息带偏舆论,煽动网友情绪,对网络暴力事件的发生要负一定责任。因此,应当加强对自媒https://www.hubpd.com/hubpd/rss/zaker/index.html?contentId=1729382256912530521
13.在朋友圈转发这类信息,最高要罚100万!新《广告法》中明确规定,自然人在自媒体发布广告同样需要承担相应的法律责任。所以,不要以为《广告法》离我们很远,不只是明星代言需要连带法律责任那么简单。作为普通人,也会成为连带责任者,帮忙转发广告要“三思”。 转发虚假广告最高罚100万 按照新《广告法》规定,发布虚假广告,欺骗、误导消费者,使购买商品或者接受https://static.nfapp.southcn.com/content/201706/08/c470535.html