法律知识图谱的构建LEGALGEEK

垂直领域本身具备知识图谱的所有特点,也应该吸收通用知识图谱的各种技术来促进自身的发展。

一般认为,知识图谱的构建方法有三种:自底向上、自顶向下和二者混合的方法。前两者的主要区别是:“本体构建”与“实例抽取”的先后顺序不同,具体分析如下:

构建方法:step1:实例抽取。首先从一些非结构化数据、半结构化数据源中抽取实例、关系等,将其加入到知识库中形成数据层;step2:本体构建。对已经处理好的数据层进行概念抽象,最后形成模式层。

应用场景:适用于数据量较大的知识图谱的构建,如百科类的DBpedia、zhishi.me和语言学类的WordNet、大词林等,主要应用于语义搜索,强调知识的广度,对知识的准确度要求不高。

主要劣势:较难构建规范的本体层、准确性不高。

构建方法:step1:本体构建。从最顶层的概念开始构建顶层本体,然后细化概念和关系,形成结构良好的概念层次树,过程中需要利用一些数据源提取本体,即本体学习;step2:实例抽取。将抽取得到的实例、关系匹配填充到所构建的模式层本体中,形成知识图谱的数据层。

应用场景:面向特定领域,能够进行知识推理,实现辅助分析及决策支持等功能,如中医医案知识图谱等。行业知识图谱对专业性与准确度的要求高,这也要求其必须有严格的本体层模式。

主要劣势:人工依赖性强、本体更新受限专业人员能力,一般适用于数据量小的知识图谱构建。

构建方法:step1:初始实例抽取。对数据进行初步实例抽取;step2:本体构建。根据抽取结果,对新到的知识和数据进行归纳总结,辅助本体构建和迭代;step3:实例抽取。基于更新后的模式层进行新一轮的实例抽取。

应用场景:如百度知识图谱,就是利用内外部以及用户数据采用混合方法构建所得

主要问题:初始实例抽取的依据不明,可能需要有一定基础或前置处理经验。

小结

一般认为:三种知识图谱构建方法,自顶向下法较好体现概念间层次,但人工依赖性强、模式层更新受限,仅适用于数据量小的知识图谱构建;自底向上法更新快、支持大数据量的知识图谱构建,但知识噪音大、准确性不高;混合方法灵活性强,但模式层构建难度大。

演绎思维冲突法律是一种社会规范,有不同于自然科学的应然追求。法律的施行,是在三段论的逻辑框架下进行的演绎。与之相反,通用大数据认识论则强调经验主义的归纳。

因果思维冲突在法律思维和法律方法中因果性占据着十分重要的地位。这与经验主义的通用大数据认识论强调的“去因果分析”不相兼容。

说理思维冲突司法过程通常被视为一种重要的凝结共识机制。任何决定都必须在证明、推理与审议的基础上作出。因此,法律思维强调解释说理。当前,在通用大数据中使用较为普遍的深度学习算法,尤其是神经网络算法就因为可解释性的不足而持续面临法律人的质疑。

上述行业知识图谱建设经验,以及法律行业特有的思维冲突分析对我们在探讨知识图谱的构建方法时,具有路径上的指引:

首先,作为典型的行业知识图谱,需要通过预先设定领域本体,来明确挖掘分析的边界;其次为了解决可解释性的担忧,需要引入法学理论参与到本体层的构建当中,例如针对刑事犯罪的“四要件”、“三阶层”理论,针对民事案件的“请求权基础”理论,来明确本体构建的结构和各部分的关系。另外,法律领域本体的构建需要与业务场景需求进行关联,面向不同法律材料形成不同的子领域本体集。

实例抽取规则的定义,同样需要结合法律专业知识。以裁判文书为例,相同的法律概念可能在文本当中多次出现,但对概念的认定可能存在前后矛盾,比如在刑事案件中对被告人是否构成自首,检察机关、被告人、法院的意见可能是截然相反的,依据裁判文书的行文思路,写在裁判分析过程段(以“本院认为……”开头)才是最终认定结论。特定要素的提取,只有限定在特定的段落才能保证准确性。

在对知识图谱输出结果进行解释的环节,需要对推理依据和过程进行显性展示,例如对于相似案件的推荐功能,需要明晰判断类案的依据,例如同时满足包含特定法律本体要素,且本体之间的关系是一致的。通过在本体构建时确定的解释性框架,对实际个案进行解释。

参考文献:

[2]陈雅茜,邢雪枫.基于本体建模的动态知识图谱构建技术研究[J].西南民族大学学报(自然科学版),2021,47(3):310-316.

THE END
1.普法丨一图了解《宪法》中国普法丨一图了解《宪法》2024-09-13 15:08:37 来源: 滨海新区海滨街道办事处 天津举报 0 分享至 提到宪法 大家到底了解多少呢? 一起来看吧! 转自:中国普法网 特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。 Notice: The content above (https://www.163.com/dy/article/JBVNP46605346GQG.html
2.《中图法》法律文献分类体系刍议《中国图书馆图书分类法》(以下简称《中图法》)法律文献分类体系虽几经修订,并被基本大类似有不妥仍存有不少问题与缺陷主要表现在, 广泛应用,但就其科学性而言, :基本大类的数目,也可由某些内容性质相近或历来关系密切的学科构成,就这一意义讲, 《中图法》与"政治"列为一基本大类似无不可。但由于"政治"和http://iolaw.cssn.cn/tsgzytsgyw/200610/t20061023_4598907.shtml
3.中图法分类论文撰写规范中图分类法杜威十进分类法国际十进分类法文献标识码核心期刊目录https://lib.jssnu.edu.cn/_s97/2019/0613/c2815a26773/page.psp
4.法律中图分类号查询法的理论(法学),世界各国法律(总论),国家法、宪法,行政法,经济法、财政法,民法,刑法,诉讼法,司法鉴定,犯罪学,刑事侦查学(犯罪对策学、犯罪侦查学),司法鉴定学,法医学,司法制度,国际法,法律http://www.ztflh.com/?c=1963
5.中图法分类简表《中国图书馆图书分类法》类目简表 A 马克思主义、列宁主义、毛泽东思想 1 马克思、恩格斯著作 2 列宁著作 3 斯大林著作 4 毛泽东著作 5 马克思、恩格斯、D 政治、法律 0 政治理论 1/3共产主义运动、共产党 4 工人、农民、青年、妇女运动与组织 5/7世界各国政治 8 外交、国际关系9 法律 E 军事 0 军事理http://lib.math.ac.cn/50
6.民法典网络上图片侵权如何认定《民法典》第一千一百九十四条 网络用户、网络服务提供者利用网络侵害他人民事权益的,应当承担侵权责任。法律另有规定的,依照其规定。 二、网络侵权主体的分类 (一)、网络服务提供者 网络服务提供者是网络空间中一种全新的主体,对网络的正常运行和健康发展 起着举足轻重的作用。正是因为这种不可或缺的职能,网络服务https://www.66law.cn/laws/1568149.aspx
7.收藏:62张法律思维导图,一张图解决一个法律问题用过这张导图的律师,总体评价是:简单明了,方便实用。这就是成功的思维导图。它不仅仅局限于一个分类工具,而是方便你学习、工作的知识成果。 做一名律师,有一项必不可少的工作,就是要研读各种法律条文、各类法律文章和各种案例,也就是说,律师要阅读大量的文字,那些纷繁复杂的法律条文,看得很让人头痛,有些条文理https://www.360doc.cn/article/50835281_1055137985.html
8.盘点76个当下全球免费优质机器学习数据集获取资源免费数据集该数据集通常用于机器学习技术的文本应用实验,例如文本分类和文本聚类。 13.Legal Case Reports Dataset(法律案例报告数据集) Legal Case Reports Dataset一个小型数据集,包含 4000 个法律案例的文本摘要,可以从 UCI 机器学习存储库下载。用于训练自动文本摘要的极好数据源。 https://blog.csdn.net/qq_20288327/article/details/124673612