*数据:论文、新闻、法规、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造训练数据
*算力:multipleNVIDIAV100GPUs
*学校:北京大学
2.韩非(HanFei)(2023-05-31)
*基础模型:HanFei-2.0
*数据:案例、法规、起诉状、法律新闻(40G,2K词库)
*预训练:中文通用指令(53k)、中文法律指令(4k)、中文通用对话(55k)、中文法律对话(54k)、中文法律问答数据(50k)
*包含模块:聊天、摘要等各个模块(150)
*评估:法律问题
*算力:8xNVIDIAA100/40GB
*机构:中国科学院深圳先进技术研究院、深圳市大数据研究院、香港中文大学(深圳)
3.LawyerLLaMa(2023-05-24)
*基础模型:Chinese-Alpaca-Plus-13B
*数据:中国国家统一法律职业资格考试题库、JEC-QA中国法考数据集
*算力:7xNVIDIAA100GPUs40GB
*学校:清华大学
4.LexiLaw(2023-05-16)
*基础模型:ChatGLM-6B
*数据:法律问答数据、法律知识、百度收集的54k条法律问答数据、法律法规、包含刑法、民法、宪法等法规、法律参考书籍、JEC-QA数据集提供的法律参考书籍、从裁判文书网收集的50k法律文书
*开源数据:LaWGGT数据集(@pengxiao-song:包含法律领域专有词汇、专业名词、高引指令等)、法律各领域词表和词向量@lihuanyong*包括法律词表、20w法律问答数据、法律文书和犯罪案例、中国法律术语@lawBook:收集各类法律法规、部门规章案例等
*算力:8xNVIDIATeslaV10032GB、24h/epoch(pre-training),12/epoch(fine-tuning)
*学校:南京大学
5.LawGPT_zh(2023-04-9)
*基础模型:ChatGPT-6B
*数据:ChatGPT根据CrimeAssistant的问题重新生成(52k);根据中华人民共和国手上最核心的法律条款,利用ChatGPT接收生成的情境问答(92k);法律领域的教科书、经典案例等数据
*知识问答:法律知识问题的精准回答
*算力:4xNVIDIA3090
*学校:上海交通大学
6.LawGPT(2023-04-12)
*基础模型:Chinese-Alpaca-Plus-7B
*数据:情境对话:真实的律师用户问答(200k)
*知识问答:法律知识问题的模糊回答
*利用ChatGPT根据CrimeAssistant的问题重新生成(52k)
*根据中华人民共和国手上最核心的法律条款,利用ChatGPT接收生成的情境问答(92k)
*法律领域的教科书、经典案例等数据
*算力:8xNVIDIAV10032GB、24h/epoch(pre-training),12/epoch(fine-tuning)
*中国裁判文书网:裁判书、裁定书、决定书等
*官方数据:司法部国家司法考试中心:行政法规、法考真题等
*国家法律法规数据库:官方法律法规库
*中国法律智能技术测评(CAL)历年赛题数据
*中国法研杯人工智能挑战赛(LAC)历年赛题数据
*百度知道法律问答数据集:约3.6w条法律问答数据,包括用户提问、问题回答、最佳回答
*法律知识问答数据集:约2.3w条法律问答数据
*中国司法考试试题集:约2.6w道中国司法考试试题
*LaWGPT数据集(@pengxiao-song:包含法律领域专有词汇、专业名词、高引指令等)
*法律各领域词表和词向量@lihuanyong*包括法律词表、20w法律问答数据、法律文书和犯罪案例
*中国法律术语@lawBook:收集各类法律法规、部门规章案例等