本发明属于数据处理技术领域,涉及一种法律数据的知识图谱构建方法及能够实现该方法的系统。
背景技术:
谷歌于2012年5月推出谷歌知识图谱,并利用其在搜索引擎中增强搜索结果,标志着大规模知识图谱在互联网语义搜索中的成功应用。在研究领域,知识图谱也取得了显著的成果,主要是根据freebase或conceptnet5等已有的数据,推动了研究的发展。然而在法律行业,尚未出现基于法律知识图谱较成功的应用,原因在于真实的法律知识图谱构建的难度。主要存在的问题包括:
2)知识缺失问题,法律行业的数据仍然是以非结构化的文本为主,缺乏具有知识结构且计算机能够理解的知识数据。
3)认知鸿沟问题,法律知识图谱不等同于传统的知识图谱,普通的知识图谱的构建方法对法律数据不完全适应,法律实体和法律关系都需要法律专家的介入,对实体和关系做法律上的专业定义。
4)构建体系问题,法律知识图谱没有一个统一规范的构建流程和体系,缺乏自动化的辅助工具。
因此目前尚无技术能够实现法律知识图谱的构建。
技术实现要素:
基于法律数据的知识图谱构建方法,包括如下步骤:
步骤1,构建法律词典
首先下载以及人工标注法律种子词库,同时训练法律文本语料得到法律词向量;然后计算与词向量相似的候选法律词,计算相似度公式为:其中w1,w2为法律词汇的词向量;最后筛选有效的候选法律词;
步骤2,提取法律短语
通过互信息和信息熵分别提取组合词语,综合这两种方式计算的分数,使用加权平均的方式做排序筛序出短语候选组;
其中,
互信息计算公式为:x和y为法律词,p(x,y)为x和y的联合概率,p(x)、p(y)分别为x和y的概率;
信息熵具体计算公式如下:
步骤3,预处理法律文本
将步骤1、步骤2中构建的法律词典、法律短语作为分词工具的扩展词,对原始法律文本数据进行分词、词性标注、句法分析,完成法律语料文本的预处理;
步骤4,初步构建法律知识
步骤5,识别法律实体
对已标注的法律文本数据,进行实体特征的抽取,并将抽取的特征通过模型计算,实现法律实体自动识别,模型计算过程如下:
句子沿着标签的路径,计算出概率转移矩阵和网络的分数表示为:
步骤6、识别法律关系
对法律专家标注的法律文本数据,使用法律关系规则模板,从文本中学习法律文本的关系表达式,采用机器学习方法发现法律关系;
步骤7、构造法律知识链
基于原始法律文本,采用步骤5和步骤6识别到的法律实体和法律关系,使用基于法律实体词和法律关系的法律事理图谱推理引擎来识别法律知识链。
进一步的,所述步骤6包括如下具体过程:
6.1、抽取法律文本的依存句法特征,制定关系抽取模板;
6.2、对法律语料进行预处理,进行语义特征、关系类别特征的抽取;
6.3、将抽取得到的特征值代入到关系抽取模型进行关系抽取;
6.4、将6.3抽取得到的关系做为候选关系组,并将候选关系组做类型过滤。
本发明还提供了基于法律数据的知识图谱构建系统,包括:法律基础词典构建模块、法律基础知识库构建模块、法律实体自动识别模块、法律关系自动识别模块、法律知识链自动生成模块;
所述法律基础词典构建模块用于构建和扩充法律基础词典;所述法律基础知识库构建模块用于构建法律专家知识库,制定法律专家知识模板;所述法律实体自动识别模块用于自动识别法律文本的法律实体,并向法律知识链自动生成模块推送法律实体;法律关系自动识别模块用于自动识别法律文本的法律关系,并向法律知识链自动生成模块推送推送法律关系;法律知识链自动生成模块用于通过法律实体自动识别模块和法律关系自动识别模块推送的实体和关系,生成候选知识链。
进一步的,还包括法律知识图谱应用服务模块,其用于提供系统中的应用接口。
与现有技术相比,本发明具有如下优点和有益效果:
本发明提供的方法及系统实现了针对法律数据构建知识图谱,通过本发明能够在多个法律案由,如离婚纠纷、合同纠纷和机动车交通事故责任纠纷等案由数据构建知识图谱,为法律行业的上层应用提供了走向智能化的数据。本发明将法律专家知识和深度学习相结合,实现了对海量法律数据的自动化识别、抽取和集成,节省了大量的人力物力。同时使得构建出来的法律知识图谱更符合人对法律的理解。
附图说明
图1为知识图谱的构建体系示意图。
图2为法律词典构建流程示意图。
图3为法律实体识别模型展开结构示意图。
图4为法律关系识别模型流程示意图。
图5为基于法律数据的知识图谱构建系统结构示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提出了法律知识图谱构建的体系,通过法律专家知识定义法律实体、法律关系和法律知识链,解决法律知识图谱在计算机中定义问题,解决认知的问题;通过多项自然语言处理技术构建了自动化的工具,提取法律文本中图谱内容。
本发明中法律知识图谱主要由法律实体库,法律关系库和法律知识库构成,如要构建知识图谱需要实现法律实体预识别、法律关系预识别、法律知识库构造。
法律实体预识别:在法律文本集中,通过机器学习算法结合自定义的专家法律知识,提出备选法律实体。提取法律实体的特征,建立评估函数,对备选的法律实体打分,然后输出法律实体,存入实体库。
法律关系预识别:将法律文本经过预处理,生成多条知识文本,识别出该文本中所包含的实体,然后对其作词性标注、句法分析等处理,提取出实体对应的关系,存入实体库。
法律知识库构造:输入知识文本,匹配出实体和关系,组织构造成知识链,然后存入知识库。
更为具体的说,本发明提供的法律数据的知识图谱构建方法,包括如下步骤:
步骤1,法律词典的构建。
本步骤构建流程如图2所示,首先下载以及人工标注法律种子词库,同时训练法律文本语料得到法律词向量;然后计算与词向量相似的候选法律词;最后筛选候选法律词是否有效。计算相似度公式为:其中w1,w2为法律词汇的词向量。
步骤2,法律短语的提取。
计算方式有两种:
2、利用信息熵来提取组合词语,左右熵的具体计算公式如下:
其中,el(w)、er(w)分别是当前词的左熵和右熵,p(aw|w)为当前词左边出现词的条件概率,p(wb|w)为当前词右边出现词的条件概率。左右熵值越大,表明词语组合成短语的可能性就越大。
本发明综合排序上述两种计算方法,综合这两种方式计算的分数,使用加权平均的方式做排序筛序出短语候选组。
步骤3,法律文本的预处理。将步骤1、步骤2中构建的法律词典、法律短语作为分词工具的扩展词,对原始法律文本数据进行分词、词性标注、句法分析等,完成法律语料文本的预处理工作。
步骤4,法律知识的初步构建。该步骤也是法律知识图谱构建的基础工作,主要法律专家标注或众包标注的形式来完成,具体包括以下子步骤:
4.2、在步骤3的基础上标注一定量的法律数据,主要由法律专家标注或者使用众包技术来标注特定需求的法律数据语料。
步骤5,法律实体识别。
对步骤4已标注的法律文本数据,进行实体特征的抽取(如:语法特征、实体上下文特征、实体词向量特征等),并将抽取的特征用于法律实体识别模型的输入,从而实现法律实体自动识别。法律实体识别模型结构包括输入层、隐藏层、输出层,模型的展开结构如图3所示,通过该隐藏层能够根据历史信息的标签来预测当前的标签。其le为法律实体(legalentity,le),bieo分别为实体词的开始,中间、结尾和非实体词构成部分,模型计算过程如下:
步骤6、法律关系识别。对法律专家标注的法律文本数据,使用步骤4.1中定义的法律关系规则模板,从文本中学习法律文本的关系表达式,结合机器学习方法来实现法律关系自动发现。其识别过程如图4所示,包括如下过程:
6.1、抽取法律文本的依存句法特征,制定关系抽取模板。如:并列关系coo结构模板(实体1,并列关系词(和、与等),实体2)、主谓关系sbv结构模板(实体1,能动关系词(导致、申请等),实体2)等。
6.2、对法律语料进行预处理,进行语义特征、关系类别特征的抽取。
6.3、将抽取得到的特征值代入到关系抽取模型(如:bootstrapping方法)进行关系抽取。
步骤7、法律知识链构造。原始法律文本经过步骤5和步骤6识别到的法律实体和法律关系,使用基于法律实体词和法律关系的法律事理图谱推理引擎来识别法律知识链,完成法律知识链的构造。例如:a、感情破裂并且调解无效准予离婚;b、管理人知道驾驶人不能驾驶机动车认定有过错承担赔偿责任;c、贷款人未按约提供借款承担赔偿损失。
本发明还公开了一种基于法律知识的知识图谱构建系统,如图5所示,该系统包括:法律基础词典构建模块、法律基础知识库构建模块、法律实体自动识别模块、法律关系自动识别模块、法律知识链自动生成模块和法律知识图谱应用服务模块。
其中:法律基础词典构建模块,用于构建和扩充法律基础词典,实现上述步骤1-3功能;法律基础知识库构建模块,用于构建法律专家知识库,制定法律专家知识模板,实现上述步骤4功能;法律实体自动识别模块用于自动识别法律文本的法律实体,实现上述步骤5功能,并向法律知识链自动生成模块推送法律实体;法律关系自动识别模块用于自动识别法律文本的法律关系,实现上述步骤6功能,并向法律知识链自动生成模块推送推送法律关系;法律知识链自动生成模块,用于通过法律实体自动识别模块和法律关系自动识别模块推送的实体和关系,生成候选知识链,实现上述步骤7功能;法律知识图谱应用服务模块用于提供知识图谱上的应用接口,例如法律实体识别接口、法律关系识别接口、法律路径逻辑推理接口,该接口模块在某些应用场景下可以省略,并非必需。
基于上述方法和系统,本发明能够针对法律数据构建知识图谱,并能够在法律问答、法律知识智能检索、案例智能检索等应用中起到重要支撑作用。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。