人工智能介质下审判路径范式构建透析
——法律知识图谱的模型构建
作者
叶胜男杭州互联网法院互联网审判二庭副庭长
李波浙江省高级人民法院研究室主任科员
互联网法院全程在线、全程留痕的特性给人工智能审判带来了更大契机和广阔的天地。法律实务界将人工智能审判视为一个“聪明但不独立的助手”,即“以海量数据为基础,以类型化案件为突破口,通过提炼裁判规则、研发最优算法、归纳既有经验,以实现在类型化案件中裁判规则、司法经验,完成有限智能化。”[黄京平:《刑事司法人工智能的负面清单》,载《探索与争鸣》杂志,2017年第10期,第86页。]
(一)信息可溯源
(二)链路可互通
(三)机器可抓取
(四)图谱可汇制
构建知识图谱的主要目的是获取大量的、让计算机可读的知识,包括知识获取,即从非结构化、半结构化以及结构化数据中获取知识;数据融合,即将不同数据获取的知识进行融合构建数据之间的关联;知识计算及应用,即基于知识图谱计算功能以及基于知识图谱的应用。
大量的法律专业人才和技术人员通过构建法律知识图谱,来实现技术和法律的融合。目前华宇元典法律知识图谱内容的提炼过程大致经历了这几个步骤:小样本研究,监督学习,人工标记,人工检索,强化学习,交叉验证,原型开发,模型测试,部署试用,模型调整。
法律知识图谱属于垂直行业领域的知识图谱,从图示的直观形式来看,它是众多法律要素组成的知识库。法律知识图谱是机器进行法律知识推理的基础,它将法律规定、法律文书、证据材料及其他法律资料中的法律知识点以一定的法律逻辑连接在一起形成概念框架,它的概念框架上的每个知识实体或概念又分别与法律法规、司法经验、案例、证据材料等相应挂接,从而建立起法律概念、法律法规、事实、证据之间的动态关联关系。不同于英美法系的判例法,在中国是成文法的背景下,知识图谱将法条和司法解释用更加有逻辑的语言表达出来,且比文字更加明确,更加有逻辑。知识图谱优势在于可以根据法条、司法解释的更新进行迭代,因此可以构建出知识图谱为主,大数据为辅助,类案为辅助的人工智能审判框架。
(五)黑盒子的悖论
人工智能审判的“黑箱”可以被解读,AI像人一样具有复杂学习的能力,可以从许多看似不相干的事物中产生一个认知。神经网络算法可以描述不相干的事物,其采用网状的非线性函数,在不相干的元素中建立一个假设的逻辑关系,然后通过海量的数据来检验这种假设的正确性,淘汰正确度低的假设,保留正确度高的假设,如果通过简单的线性逻辑去反向理解它产生结论的原因,就相当困难。但是法律知识图谱并不是一个黑盒子,神经网络算法突破了传统的线性思维逻辑,图像领域的许多标准任务上已经有一定的可解释性。实践操作中,人工智能审判中每个环节法官都可以参与,比如证据认定环节、事实认定环节等等,法官知道自动生成裁判文书的推理过程,如图2所示,人工智能审判的整个框架都在审理案件逻辑,最后出裁判结果。
二、阻碍:人工智能审判的局限性——从技术的本质特征角度
人工智能审判有没有技术禁区?“技术边界”或称“能力禁区”,是指司法人工智能能所“不能”做的事情。有人指出,司法人工智能审判存在“匮乏且低质的法律数据、隐秘且低效的算法、薄弱的人才”等三方面的现实困境,难以深入全面开展。[左卫民:《关于法律人工智能在中国运用前景的若干思考》,载《清华法学》2018年第2期,第114页至120页。]
(一)法律知识图谱没有衍生性
但是机器不是万能的,法律知识图谱没有衍生性,目前的人工智能审判都是通过案由进行分类,一种案由的法律知识图谱只适用于特定案件,没有衍生学习能力。法律专业壁垒在法律知识图谱的构建中,乃至在法律大数据领域,都是难以逾越的。法官具有全面学习的能力,法官是全能的,但是机器人无法具备,只有人类输入什么,机器人才会接收什么。
(二)人工智能无情感
有人认为,人工智能缺乏人类智能“心性、灵性和智性”混合体中的“灵性”成分,根本无法与人类法官相提并论。法律事务从业者认为“至少在某些方面”人工智能与人类法官注定存在差距,由于“人工智能审判的局限性、法官审判工作的逻辑性、系统性、法官的职业性和经验性”等三方面的原因,导致司法人工智能无法取代法官。[潘庸鲁:《人工智能介入司法领域的价值与定位》,载《探索与争鸣》,2017年第10期,第104页至105页。]
必须承认的是,像案情整理和法律检索甚至是IPO这种标准化程度较高的工作,都能由机器人承担,关键点在于复杂案件中的事实认定和法律适用的问题。“法律的生命不在于逻辑,而在于经验。”潘德克顿法学的法律体系发展出一套“概念法学”,主张用逻辑的方法解释实在法,法官就是对法律进行逻辑操作的机器,不允许司法对立法进行解释和续造,但最终失败。
机器是没有感情的,这使得机器人虽然不会被情绪所影响,能够做到绝对地无所偏私,但是也不会使用情绪,不会理解情感,也不会理解何为正义感。即使机器人有学习能力,有大数据运算能力,但是也无法像法官在面对一个主动认罪的被告人时做出的思考:“是不是可以考虑减少一个月,酌定从轻处罚”。特别在民商事案件中,很多案件的服判息诉都是因为法官在审判过程中体现的公信力、人文关怀和人格魅力,而机器无法体会。因此法官需要不断学习更新,需要对社会和人生具有深刻理解,充满创造性、富有正义感。
(三)“标准化”冲突
人工智能审判面临的挑战之一在于当前目前人工智能审判的“标准化”的要求与当前人类司法的“可靠性、相对性、适度性、独立性、可控性”存在间接的潜在冲突。有人认为,无论是ODR(onlinedisputeresolution,ODR)还是正式的判决系统,通过使用多渠道的更好且易用的信息,并去除诉讼当事人的外表信息(如种族、性别、体重等),都能够有效降低判决过程中的主观偏见性。也有人认为,“具有相对性的民商法司法裁判都具有明确的上位法依据,主要体现为正式制度适用的差异,因此作为判定司法责任基准的裁判尺度,是以相对性为基本特征的。”[黄京平:《刑事司法人工智能的负面清单》,载《探索与争鸣》杂志,2017年第10期第92页。]人工智能审判提供的是标准化审判,而法官由于长期、良好的司法专业训练对审判工作没有完全统一的标准尺度,特别对于疑难复杂案件,人工智能审判对于判决书说理论证等需要法官自由发挥的部分无法胜任。
(四)人工神经网络适用类型的局限性
人工神经网络由输入层、多隐层、输出层构成,每一层都有若干个神经元,神经元之间有连接权重,是模仿神经网络行为特征并进行分布式并行信息处理的算法模型。由众多神经元的连接权值而成的神经网络系统,具有深度学习的能力。[【美】StartJ.Russell、PeterNorvig:《人工智能—一种现代的方法》,殷建平、祝恩、刘越、陈跃新、王挺译,清华大学出版社2013年版,第254页。]人工神经网络对没有严格定律隐含层神经元数量的选取,其可以通过经验、训练来获取,但是对层级化结构、要件化、标准化要求较高,故而限制了适用的案件类型。遵循“确定请求权基础-解构要件-证明要件-事实认定-法律适用”识别路径的要件事实型民事裁判案件内在契合了人工神经网络的特征,实体法规范、构成要件以及要件事实构成逻辑严密的网络,能够使得机器从案件事实中区分出基本层次,最适合通过汇制法律知识图谱来实现智审。
三、应用:人工智能审判的模型探究——要件事实型民事裁判论
要件事实型民事裁判论是指,明确要件事实法律性质后,依据民事实体法规范结构、民事诉讼审理机构展开的民事裁判方法。[许可:《民事审判方法:要件事实引论》,法律出版社,2009年版,第2页。]其裁判逻辑为:“识别请求权基础规范—请求权基础规范的要件解构—争点整理—证明责任分配—争议事实认定—涵摄得出裁判结论”,综合实体与程序,最终得出结论。人工智能易于模拟具有确定的审理对象、明晰的法律规则、经审理后确定的案件事实以及规范的程序规则,这些内容都是要件事实型民事裁判论的核心要义,因此要件事实型民事裁判论从性质、结构、方法上,都是人工智能知识积累的较好选择。
序列标注方法上,学界提出了LSTM-CRF模型做序列标注,在LSTM层后接入CRF层来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。在英文NER任务中先使用LSTM来为每个单词由字母构造并拼接到词向量后再输入到LSTM中,以捕捉单词的前后缀等字母形态特征。
(一)模型总体路径分层标注的解读
首先,根据原告诉讼请求以及事实理由明确案由、诉讼标的,以确定案件审理的请求权基础规范,再将请求权基础规范解构为若干要件,对请求权基础解构下的第一层次的要件事实进行标注。
其次,标注要件事实的证明与认定过程,审理过程中,被告对于原告诉请会进行答辩,原告要对其所主张的事实承担证明责任,只有完成高度盖然性的要求,原告的事实理由才能法官认定。在此过程中,法律专家需要对证明责任分配和证明标准予以标注,提供给机器学习。被告针对原告诉讼会提出事实抗辩或者间接否认的积极防御,就需要对事实抗辩与间接否认的证明责任分配及证明标准的节点予以标注。
再次,标注证明路径。证明路径可以分为两种:一种路径是直接证明,当事人通过举示证据而直接证明事实,另一种路径是间接证明,当事人通过间接证据来证明间接事实,法官依照经验法则推定主要事实。法官专家可以按照此二维路径对个案证明方式予以标注,并形成司法大数据,机器就可以依照证明方式的知识点进行深度学习。
最后,标注请求权基础规范能否适用的法律效果。请求权基础规范的各个要件事实均被认定为真的情况下,请求权基础规范能够得以适用。法律专家可以对各要件事实认定情况、裁判结果加以予以标注。
综上,通过要素解构要件事实型民事裁判论,可以实现对实体法规范、各要件事实、事实主张与抗辩、抗辩与间接否认、证明责任、直接证明与间接证明、裁判结果等各要素形成分层次、分阶段标注,这些要素也可以提供给机器规范化、标准化、体系化的知识积累。需要注意的是,机器在此过程中需要对起诉书、证据、庭审笔录等字、词、语句、篇章学习、理解、记忆,进行表征学习,文本表征里面分为三个部分:词级表征、句级表征、篇章级表征,可使用模型有词级表征模型:Word2Vec,Glove,Bert;句级表征:CNN,RNN,Bi-LSTM,GRU;篇章级表征:RNN-Attention,GRU-Atten。
(二)案例演示——以信息网络传播权类纠纷案件为例
信息网络传播权纠纷是典型的要件事实型民事裁判类纠纷,法官可以根据请求权基础规范的构成要件,将待证事实解构为若干要件事实。绘制法律知识图谱的过程中,法律专家根据要件事实论完成层级解构和标注以后,机器可以有效学习。在信息网络传播权纠纷中,包括以《中华人民共和国著作权法》第三条、第九条、第十条、第十一条、第二十五条、第四十七条、第四十八条,《中华人民共和国侵权责任法》第九条为请求权基础的侵权损害赔偿之诉。
最后,对裁判结果进行标注。信息网络传播权的侵权损害赔偿之诉中,驳回原告全部诉讼请求、驳回原告其余诉讼请求,判令被告赔偿原告等裁判结果的事实依据、法律依据进行要素解构和标注。特别是请求权基础、要件事实、证明过程、证明路径等事实成立或者部分成立导致不同的裁判结果进行标注,供机器深度学习,最终相应的法律知识点作为分支结构,形成一颗决策树。目前一颗决策树的法律知识图谱被验证不足,法律图谱应当是立体形态的,且只是引擎的一个环节,多种图谱通过逻辑符改造搭建成引擎,最终绘制成立体决策树。
本文内容刊登于《人民司法》2019年第31期
原标题:《【网聚法言】第十期:人工智能介质下审判路径范式构建透析——法律知识图谱的模型构建》