垂直领域本身具备知识图谱的所有特点,也应该吸收通用知识图谱的各种技术来促进自身的发展。
一般认为,知识图谱的构建方法有三种:自底向上、自顶向下和二者混合的方法。前两者的主要区别是:“本体构建”与“实例抽取”的先后顺序不同,具体分析如下:
构建方法:step1:实例抽取。首先从一些非结构化数据、半结构化数据源中抽取实例、关系等,将其加入到知识库中形成数据层;step2:本体构建。对已经处理好的数据层进行概念抽象,最后形成模式层。
应用场景:适用于数据量较大的知识图谱的构建,如百科类的DBpedia、zhishi.me和语言学类的WordNet、大词林等,主要应用于语义搜索,强调知识的广度,对知识的准确度要求不高。
主要劣势:较难构建规范的本体层、准确性不高。
构建方法:step1:本体构建。从最顶层的概念开始构建顶层本体,然后细化概念和关系,形成结构良好的概念层次树,过程中需要利用一些数据源提取本体,即本体学习;step2:实例抽取。将抽取得到的实例、关系匹配填充到所构建的模式层本体中,形成知识图谱的数据层。
应用场景:面向特定领域,能够进行知识推理,实现辅助分析及决策支持等功能,如中医医案知识图谱等。行业知识图谱对专业性与准确度的要求高,这也要求其必须有严格的本体层模式。
主要劣势:人工依赖性强、本体更新受限专业人员能力,一般适用于数据量小的知识图谱构建。
构建方法:step1:初始实例抽取。对数据进行初步实例抽取;step2:本体构建。根据抽取结果,对新到的知识和数据进行归纳总结,辅助本体构建和迭代;step3:实例抽取。基于更新后的模式层进行新一轮的实例抽取。
应用场景:如百度知识图谱,就是利用内外部以及用户数据采用混合方法构建所得
主要问题:初始实例抽取的依据不明,可能需要有一定基础或前置处理经验。
小结
一般认为:三种知识图谱构建方法,自顶向下法较好体现概念间层次,但人工依赖性强、模式层更新受限,仅适用于数据量小的知识图谱构建;自底向上法更新快、支持大数据量的知识图谱构建,但知识噪音大、准确性不高;混合方法灵活性强,但模式层构建难度大。
演绎思维冲突法律是一种社会规范,有不同于自然科学的应然追求。法律的施行,是在三段论的逻辑框架下进行的演绎。与之相反,通用大数据认识论则强调经验主义的归纳。
因果思维冲突在法律思维和法律方法中因果性占据着十分重要的地位。这与经验主义的通用大数据认识论强调的“去因果分析”不相兼容。
说理思维冲突司法过程通常被视为一种重要的凝结共识机制。任何决定都必须在证明、推理与审议的基础上作出。因此,法律思维强调解释说理。当前,在通用大数据中使用较为普遍的深度学习算法,尤其是神经网络算法就因为可解释性的不足而持续面临法律人的质疑。
上述行业知识图谱建设经验,以及法律行业特有的思维冲突分析对我们在探讨知识图谱的构建方法时,具有路径上的指引:
首先,作为典型的行业知识图谱,需要通过预先设定领域本体,来明确挖掘分析的边界;其次为了解决可解释性的担忧,需要引入法学理论参与到本体层的构建当中,例如针对刑事犯罪的“四要件”、“三阶层”理论,针对民事案件的“请求权基础”理论,来明确本体构建的结构和各部分的关系。另外,法律领域本体的构建需要与业务场景需求进行关联,面向不同法律材料形成不同的子领域本体集。
实例抽取规则的定义,同样需要结合法律专业知识。以裁判文书为例,相同的法律概念可能在文本当中多次出现,但对概念的认定可能存在前后矛盾,比如在刑事案件中对被告人是否构成自首,检察机关、被告人、法院的意见可能是截然相反的,依据裁判文书的行文思路,写在裁判分析过程段(以“本院认为……”开头)才是最终认定结论。特定要素的提取,只有限定在特定的段落才能保证准确性。
在对知识图谱输出结果进行解释的环节,需要对推理依据和过程进行显性展示,例如对于相似案件的推荐功能,需要明晰判断类案的依据,例如同时满足包含特定法律本体要素,且本体之间的关系是一致的。通过在本体构建时确定的解释性框架,对实际个案进行解释。
参考文献:
[2]陈雅茜,邢雪枫.基于本体建模的动态知识图谱构建技术研究[J].西南民族大学学报(自然科学版),2021,47(3):310-316.