法律大语言模型因其超级学习和“涌现”能力,在法律任务中表现出卓越的性能,引发了法律科技领域的新一轮革命。法律大语言模型的司法应用主要体现在法律语言理解、法律知识问答、法律预测和法律文本生成等领域。然而,随着其在审判等司法实践中的应用,暴露出可解释性弱和“幻觉”等问题。法律大语言模型仍然难以胜任法律人的核心工作,包括法律推理、司法证明、法律解释、法律论证和疑难案件中的道德判断等。法律大语言模型在情感、道德、逻辑推理、决策机制和经验学习等方面仍然与法律人有本质的差异,因此,法律大语言模型的司法应用需要在严格的规范之下合理使用。
一、问题的提出
法律大语言模型赋能司法,是指面向司法领域的生成式人工智能因其在法律语言理解、法律知识问答、法律预测和法律文本生成等领域表现突出,从而支持法律人进行更高效和精准的司法决策,为公众提供智能化的法律咨询服务等过程。与通用大语言模型相比,法律大语言模型具备更强大的法律大数据分析和处理能力,更专注于解决法律问题。在全球范围内,大语言模型已经在法律工作中展现出应用价值。哥伦比亚法官在审理一起自闭症儿童医保案时使用了ChatGPT,这被认为是“全球大语言模型审判第一案”。近期,英国发布了《人工智能司法人员使用指南》,为法官和书记员等司法人员使用人工智能提供指导,该国也已有法官使用ChatGPT辅助生成了一起知识产权纠纷案件的裁判文书。我国苏州市中级人民法院在国内率先开展了生成式人工智能辅助办案系统的试点建设工作。深圳市中级人民法院推出了全国首个司法审判垂直领域大模型。应当说,在当前法律行业的需求推动下,大语言模型展现出了其在司法领域的强大潜力,使得法律大语言模型迅速成为领域大语言模型研发的主流方向之一。
二、法律大语言模型的训练原理
法律大语言模型是基于通用大语言模型(如ChatGPT或通义千问等)的框架构建的垂类大语言模型,它通过对法律大数据集(包括法律文书、司法案例和法律法规等)进行二次训练和指令微调(又称精调),并将专门的法律知识融入模型,最终形成了具备解决法律任务能力的生成式人工智能。通过分析各种开源大语言模型的训练方法,不难归纳出一个共性的模型训练框架。以“智海—录问”法律大语言模型为例,法律大语言模型的训练过程可以概括为四个步骤。
1.步骤一:二次预训练
二次预训练的目标是将通用大语言模型训练转化为适用于司法领域的专业化模型。训练过程始于构建包括法律法规、判例、法律文书等内容的法律文本大数据。通过严格的数据清洗和去重工作,确保训练数据集的高度准确性和一致性。随后,采用句子嵌入技术将文本转换为向量格式,以便机器捕获语义层面的信息。在此基础上,通过聚类算法对向量进行分析,揭示文本中的模式、主题和关键词。在预训练阶段,选用深度双向变换器模型(如Bert)或上下文敏感的词嵌入模型(如ELMO)等深度学习模型,采用无监督学习方法以增强机器对复杂语言结构和术语的理解能力。二次预训练的方法提升了模型在司法领域中的性能,使得模型具备处理专业法律文本大数据的能力,特别是在解析法律文书和案例时,能够一定程度地理解法言法语。
2.步骤二:指令微调训练
3.步骤三:检索增强生成(RAG)
4.步骤四:多轮对话数据生成和测试评估
法律大语言模型训练的最后一步是模拟真实的法律问答场景,采用人类反馈强化学习(RLHF)来增强模型在实际问答中的表现。这种模拟通过神经会话模型进行多轮对话实验,以精确重现和测试模型在真实对话环境中的交互能力。在性能测试阶段,模型通过专门设计的测试集进行评估,量化其在案件信息抽取、法律文本摘要、法律检索等法律任务中的表现,并获得准确率和召回率等性能指标。专家评估阶段由领域专家测试模型的输出,目的是评估模型在实验中和实际应用中的可靠性和有效性,帮助验证模型在现实情境中的适用性。最后阶段是误差分析,此过程包括识别和分类模型输出中的错误(如逻辑或事实错误),并分析这些错误的原因,例如数据偏见或模型架构限制等。误差分析的目的是深入了解模型的局限,并为其下一步优化和改进提供指引。
综上,法律大语言模型的训练过程可以概括如图1所示。
图1法律大语言模型的训练过程
三、法律大语言模型的技术优缺点
法律大语言模型较传统的法律人工智能有其技术优缺点,分析它们对于厘清法律大语言模型的边界有重要作用。大语言模型的优点是其能够胜任法律任务的直接原因,而缺点则限制了它在处理复杂法律问题上的能力。
(一)
法律大语言模型的优势
1.高级自然语言处理能力
大语言模型通常基于深层神经网络架构,如Transformer模型,尤其是Bert和GPT深度学习架构。这些模型通过自注意力机制,能够捕捉文本的长距离依赖关系和复杂的语言结构,从而更有效地理解法律文本。在自然语言处理领域,大语言模型不仅能解码句子结构,还能初步理解法律文本中的微妙语义和统计意义上的逻辑关系。经过大规模数据的训练,这些模型甚至能够理解法言法语的特征和法律文本的语义结构。
2.超大规模数据处理能力
法律大语言模型需要运用法律大数据进行二次训练,其因深层神经网络架构而具备超大规模法律数据处理能力。大语言模型利用无监督的学习方法从法律大数据中提取法律语言特征,再通过对特定的法律任务进行微调,从而提高在法律任务上的性能。大语言模型还被特别训练以适应国际上不同法律体系的法律大数据,以增强在多元法律体系中的通用能力。
3.司法领域的“通用性”能力
法律大语言模型继承了其基础大语言模型的“通用性”特点,使其能够处理基础模型所能胜任的文本生成任务。通过使用法律大数据进行二次训练,大语言模型得以适应并执行多种法律任务。这种“通用性”赋予了它在处理新任务时的强大泛化能力,通过对特定法律数据的进一步微调或再训练,模型能够灵活适应不同的法律问题。然而,需要注意的是,这种“通用性”主要适用于常见的法律任务,并不能处理所有类型的法律任务,尤其是复杂的法律任务。
4.基于提示词的个性化问答能力
5.基于预测的文书生成能力
法律大语言模型运用自然语言处理和生成技术来分析和模仿不同类型法律文本的结构和内容。模型通过大规模的法律文本训练,掌握法律写作的特定格式和惯用表达。这种训练涵盖从基础的词汇学习到高级的语义理解,通过深入学习法律术语、格式和先例,能够自动产生符合专业标准的诉状、合同和判决书等法律文书。在生成法律文书时,模型会采用特定的策略来确保文本的准确性和专业性,包括使用预先定义的模板,或根据先前案例和标准格式自动调整文本结构。
(二)
法律大语言模型的缺陷
1.法律知识的深度理解缺陷
法律大语言模型善于归纳由法律大数据所得到的一般性法律知识,但仍不能够深度理解法律知识背后的真正含义。法律知识不仅是描述性的,更是规范性的。它不仅关乎法律应该是什么,还关乎法律是如何运行的。“法律知识表达的核心问题是法律解释。”法律体系包含非常复杂的知识体系,由法律概念、法律原则、法律规则、判例以及法律解释所构成。这些元素相互关联,构成了一个密集的法律知识网络。理解法律知识体系需要深入的法学专业学习和丰富的法律实践经验。大语言模型擅长为法律人提供知识检索和专家辅助决策,但是仍无法真正理解法律知识的含义,也难以解释疑难案件裁判中所蕴含的法律知识。基于法律体系的开放性,法律知识不是静态的,而是不断变化和发展的。大语言模型的大数据学习方式显然存在知识更新的滞后性,因而导致预测的结果失准。
2.解释和推理能力上的限制
法律大语言模型同样受到通用大语言模型的可解释性问题的影响,仍然无法对预测的结果作出合理的解释。人工智能法官更像是一个难以说服的黑匣子权威,即使它确实通过在其司法“意见”中提供理由来模仿人类。大语言模型的算法模型类似于“黑箱”,其内部决策过程对使用者来说不透明,很难确定算法如何以及为何作出特定的决策、建议或预测。法律问题可能具有高度的复杂性和模糊性,解决问题需要处理矛盾的证据,评估不同的法律观点,以及在不完全信息下作出合理的推断。大语言模型在处理这些复杂和模糊情况时可能遇到困难,特别是在需要权衡多个相互冲突的法律原则或解释含糊的法律条文时。而且,大语言模型的训练依赖于现有的数据集,其推断和解释主要基于已有数据,这可能导致模型在处理未覆盖或偏离训练数据集的新问题时,无法提供充分的解释。
3.检索增强(RAG)的局限性
4.法律语境理解的局限性
5.内容生成的真实性限制
四、法律大语言模型的司法应用
法律大语言模型的司法应用可以分为四个方面:(1)法律语言理解是运用大语言模型对法律大数据进行文本清洗、实体及其关系抽取、句法分析和语义分析之后,实现案例要素抽取、法律文本摘要、法律文书检查和法律论证挖掘的应用;(2)法律知识问答是运用大语言模型来增强检索能力,从而回答法律法规、案件检索和法律程序等问题的应用;(3)法律预测是运用大语言模型来增强模式识别和结果预测的能力,实现判决结果预测、量刑预测和案情分析的应用;(4)法律文本生成是运用大语言模型的“创造性”能力,根据需求输出不同类型的法律文本。
法律语言理解
1.案件要素抽取
2.法律文本摘要
法律文本摘要是对法律文本进行归纳和总结,从中提取关键信息并形成精炼、准确的内容摘要。在数据预处理和特征提取阶段,从清洗后的数据中提取合适的特征,而后选择合适的深度学习模型来训练和优化模型。在预测输出阶段,模型根据已训练的数据对新文本进行预测并生成摘要。这个过程不仅涉及关键词的提取和排序,还要将提取的信息转化为连贯、简洁的摘要文本。这样生成的摘要既要覆盖法律文书的核心内容,同时也要保持原始信息的准确性和完整性。
3.法律文书检查
法律文书检查是在给定文本中自动识别出语法、法律术语或法律规范的错误,并对错误进行修正的应用。法律文书检查既检查文本自身的语法,包括对字词、句子、标点和表述等进行正确性和规范性检查,对不符合语法规则的句子进行提示和修正;还包含对待审核文本中的法律条款进行详细校验,以识别与现行法律法规的相似性和差异。如果检测到法律文本中的内容与法律法规相矛盾,那么输出结果会提出警示。
4.法律论证挖掘
法律论证挖掘专注于从法律文本中自动提取论证,它包含了证据推理挖掘。它的主要任务是通过识别、分类和分析法律话语中的论证来自动检测和还原文本中的论证结构。法律论证挖掘的过程首先对法律文本中论证的基本单元(前提、结论和推论关系等)进行精确标记,并识别不同类型和结构的法律论证。随后,挖掘过程聚焦于识别文本中的论辩性成分,包括确定论辩性句子及其在文本中的起始位置。接着,使用神经网络算法识别论证间的关系,包括论点间的支持和攻击关系。
法律知识问答
1.法律法规问答
2.法律程序问答
3.类案检索问答
类案检索问答是一种面向案例的法律信息检索方法,在数据库中查找与案例具有法律上或事实上相似性的案例,推送类案的判决结果与适用的法律规则。大语言模型首先对使用者的检索需求问题进行分词、词性标注和句法解析,进而识别文本中的关键实体(如案由、当事人和法律法规等)及其关系。随后,通过信息检索技术来创建对案件标题、关键词、引用法律条款等的索引,再采用布尔搜索或向量搜索等算法在案例数据库中执行搜索。大语言模型还可以根据新的检索需求,通过提示词数据分析来优化搜索算法,提升搜索结果的精确性。
(三)
法律预测
1.判决结果预测
判决结果预测是运用大语言模型的大数据推断能力来预测判决的结果。大语言模型擅长分析和处理庞大的法律数据集,包括案例、法律法规和诉讼文书等,再通过机器学习算法从这些数据中识别模式,从而预测案件的裁判趋势。机器学习算法自动检测有关过去法律场景的数据模式,然后据此推断以预测未来法律情景的结果。大语言模型从法律大数据中提取关键特征,包括案由和适用的法律法规等。然后,使用大语言模型算法来训练判决结果的预测模型,使其学会识别案件特征与判决结果之间的关系,从而为新案件预测判决结果。
2.刑期预测
刑期预测是刑事案件事实认定之后的量刑预测问题,既可以是检察机关的量刑建议,也可以是法官作出的量刑裁判。刑期预测不仅需收集犯罪嫌疑人或被告人的基本信息和历史犯罪记录等资料,还包括罪名定性、犯罪金额、犯罪情节以及自首、认罪认罚等量刑情节。大语言模型首先通过特征工程提取量刑要素,然后运用大语言模型算法来进行特征训练,学习先例数据中案件特征与刑期之间的关系。而后基于这种关系预测模型,对新案件的刑期进行预测。
3.案情分析
案情分析是对案件信息进行深入挖掘,从中发现隐藏的信息和规律,并据此预测得到合理的结论。案情分析首先要收集和整理案件信息,包括案件当事人的背景资料、主观动机、行为方式和案件情节等各种细节。然后,需要对这些信息进行分类、筛选和归纳,尝试构建相应的假设和理论框架。而后使用大语言模型对之进行测试和检验。
(四)
法律文本生成
五、法律大语言模型司法应用的挑战
尽管大语言模型在司法领域表现出强劲的应用潜力,但在法律推理、司法证明、法律论证以及司法自由裁量等领域仍然面临极大的挑战。这些挑战不仅源于生成式人工智能技术层面的局限性,还由于法律实践本身的复杂性和人类认知的独特性所致。司法决策不仅涉及对文字和语言的处理,更需要对法律概念、原则和规则的深刻理解,以及在具体司法情境中的灵活应用。
法律推理之所不能
大语言模型还远不能够替代法律人的法律推理。首先,法律专业人员在处理案件时依赖于对法律原则和规则的深入理解以及对个案事实的综合考量。他们不仅分析案件材料,还将法律知识和经验应用于具体情境,进行更为深入和个案化的分析。其次,大语言模型虽然能够处理某些逻辑结构(如模式识别或数据驱动的因果关系等),但在更复杂的法律推理方面,如包含复杂证据和推论的深层次逻辑分析和严密的证明过程,其推理能力有限。大语言模型的“推理”是基于模式匹配和概率推断,而不是由高阶智能产生的逻辑推演。再次,大数据推理的逻辑不同于人类推理的思维逻辑,两者有本质上的区别。以类比推理为例,它是一种扩展性推理,这种比较源于人类对相似性的判断,它是从常识和经验中获得的。最后,法律人的法律逻辑推理除了形式推理之外还有实质推理的因素,法律人的决策往往依赖于过往的经验和直觉来作出判断,它们是在长期的法律工作中积累的。大语言模型无法从大数据视角来理解个案的情境,也无法像法律人那样通过长期的法律实践和经验积累来提升法律决策的质量。因而,大语言模型仍无法通过抽象的逻辑思维来理解法律概念及其之间的关系并将其应用于新的情境。
司法证明之所不能
法律解释之所不能
法律论证之所不能
(五)
司法自由裁量之所不能
(六)
疑难案件中道德判断之所不能
六、法律大语言模型司法应用的规范
为规范法律大语言模型的司法应用,司法机关应从制度上保证其合理使用。法律大语言模型作为一种法律垂类的生成式人工智能,受到《生成式人工智能服务管理暂行办法》的规制,但由于司法领域的特殊性,在评估机制、审查机制、数据安全保护机制等方面面临新的挑战。
法律大语言模型的评估机制
法律大语言模型的审查机制
法律大语言模型的司法应用需要接受全面的审查。
第二,为防止法律大语言被置于决定性位置,还需要审查法律大语言模型的辅助性地位。司法机关必须确保模型仅用作辅助工具,最终的决策权仍需由法律人掌握。司法机关应明确规定,任何由模型生成的建议或结论必须经过法律专业人员的审查。辅助性地位评估可以通过多方面的措施来实现:分析人机交互记录和决策链,确保司法工作人员在每个决策中都有实际参与和最终确认;明确责任归属,通过责任协议,确保司法工作人员对每项决策负责;评估模型输出的依赖度,统计输出采纳率,并鼓励司法工作人员提供多种方案以验证人类判断的独立性;司法工作人员可以质疑输出结果,在必要时纠正或拒绝不当的建议。
第三,法律大语言模型的生成内容需要接受审查,以确保其在法律实践中的准确性和合法性。首先,司法机关通过建立人机协调审查的机制,由使用者对生成内容进行交叉审查,降低个体判断错误的风险。对于复杂或敏感的法律内容,应当组建专家小组进行评审,提供多元化的专业意见。其次,建立标准化测试集,使用涵盖不同法律任务的标准化测试集来评估模型生成内容的准确性。还应当开发自动化测试工具,快速评估生成内容与测试集答案的相符程度,并标记潜在问题。最后,建立持续的性能监控机制和反馈渠道,对大模型的输出进行定期评估,及时纠正反馈的错误,确保其在实际应用中的表现稳定且可靠。
法律大语言模型的数据安全保护机制
法律大语言模型不仅面临大语言模型普遍的数据安全问题,还存在特有的安全性挑战。除了基座大语言模型的训练数据安全问题外,还涉及二次微调过程中的数据安全以及检索增强过程中的法律知识库安全保护问题。
在二次微调前,首先需要对法律大数据进行安全审查和评估。法律大数据包括裁判文书、法律法规、案例分析、合同范本和法律问答等多种形式,当中可能包含大量涉及个人隐私的信息,还可能包含敏感的商业秘密、国家机密等信息。根据数据敏感性、法律重要性以及用途,对数据进行分类和分级。例如,将个人隐私数据、敏感法律文件和公开法律信息分为不同级别,制定相应的保护措施。司法机关还可以引入法律和数据安全专家,对数据处理方案进行审核,评估数据处理可能带来的风险,特别是对数据主体权利和数据安全的影响。此外,还需要对数据源进行验证,确保用于训练和使用的数据的准确性、合法性和完整性,防止不准确或有害的数据进入系统。
结语
大语言模型有所能,亦有所不能。法律大语言模型无疑是法律人工智能研究的最前沿技术,它在法律语言理解、法律知识问答、法律预测以及法律文本生成等领域表现出了卓越的能力,标志着法律人工智能研究进入了全新时代。然而,也应清醒地认识到,法律大语言模型在处理法律逻辑推理、司法证明、法律解释、法律论证以及司法自由裁量等法律任务时存在明显的局限性,尤其是在处理需要法律职业经验和复杂道德判断的疑难案件时。大语言模型不具备法律人的直觉和经验,无法像法律人一样灵活地使用法律方法。这些局限不仅体现了技术层面的挑战,更凸显了人工智能在理解法律人的道德、伦理、经验和情感等方面的困境。法律大语言模型的能力还需要精准的测评,未来需要研究大语言模型的科学测评方法,从功能、性能、安全和质量等方面进行测评,推动大语言模型的研发、评测和应用的规范化。但无论大语言模型发展到何种阶段,它在现有的计算范式下都无法达到“人类理性”的高度。“‘人类理性’包含亚里士多德式的审慎和智慧。这些能力不是算法性的,因此计算机能力不能、也不应该取代人类理性”。大语言模型应当在其所能的范围内最大限度地发挥它的能力,同时避免走入其所不能的误区。