基于法律数据的知识图谱构建方法及系统与流程

本发明属于数据处理技术领域,涉及一种法律数据的知识图谱构建方法及能够实现该方法的系统。

背景技术:

谷歌于2012年5月推出谷歌知识图谱,并利用其在搜索引擎中增强搜索结果,标志着大规模知识图谱在互联网语义搜索中的成功应用。在研究领域,知识图谱也取得了显著的成果,主要是根据freebase或conceptnet5等已有的数据,推动了研究的发展。然而在法律行业,尚未出现基于法律知识图谱较成功的应用,原因在于真实的法律知识图谱构建的难度。主要存在的问题包括:

2)知识缺失问题,法律行业的数据仍然是以非结构化的文本为主,缺乏具有知识结构且计算机能够理解的知识数据。

3)认知鸿沟问题,法律知识图谱不等同于传统的知识图谱,普通的知识图谱的构建方法对法律数据不完全适应,法律实体和法律关系都需要法律专家的介入,对实体和关系做法律上的专业定义。

4)构建体系问题,法律知识图谱没有一个统一规范的构建流程和体系,缺乏自动化的辅助工具。

因此目前尚无技术能够实现法律知识图谱的构建。

技术实现要素:

基于法律数据的知识图谱构建方法,包括如下步骤:

步骤1,构建法律词典

首先下载以及人工标注法律种子词库,同时训练法律文本语料得到法律词向量;然后计算与词向量相似的候选法律词,计算相似度公式为:其中w1,w2为法律词汇的词向量;最后筛选有效的候选法律词;

步骤2,提取法律短语

通过互信息和信息熵分别提取组合词语,综合这两种方式计算的分数,使用加权平均的方式做排序筛序出短语候选组;

其中,

互信息计算公式为:x和y为法律词,p(x,y)为x和y的联合概率,p(x)、p(y)分别为x和y的概率;

信息熵具体计算公式如下:

步骤3,预处理法律文本

将步骤1、步骤2中构建的法律词典、法律短语作为分词工具的扩展词,对原始法律文本数据进行分词、词性标注、句法分析,完成法律语料文本的预处理;

步骤4,初步构建法律知识

步骤5,识别法律实体

对已标注的法律文本数据,进行实体特征的抽取,并将抽取的特征通过模型计算,实现法律实体自动识别,模型计算过程如下:

句子沿着标签的路径,计算出概率转移矩阵和网络的分数表示为:

步骤6、识别法律关系

对法律专家标注的法律文本数据,使用法律关系规则模板,从文本中学习法律文本的关系表达式,采用机器学习方法发现法律关系;

步骤7、构造法律知识链

基于原始法律文本,采用步骤5和步骤6识别到的法律实体和法律关系,使用基于法律实体词和法律关系的法律事理图谱推理引擎来识别法律知识链。

进一步的,所述步骤6包括如下具体过程:

6.1、抽取法律文本的依存句法特征,制定关系抽取模板;

6.2、对法律语料进行预处理,进行语义特征、关系类别特征的抽取;

6.3、将抽取得到的特征值代入到关系抽取模型进行关系抽取;

6.4、将6.3抽取得到的关系做为候选关系组,并将候选关系组做类型过滤。

本发明还提供了基于法律数据的知识图谱构建系统,包括:法律基础词典构建模块、法律基础知识库构建模块、法律实体自动识别模块、法律关系自动识别模块、法律知识链自动生成模块;

所述法律基础词典构建模块用于构建和扩充法律基础词典;所述法律基础知识库构建模块用于构建法律专家知识库,制定法律专家知识模板;所述法律实体自动识别模块用于自动识别法律文本的法律实体,并向法律知识链自动生成模块推送法律实体;法律关系自动识别模块用于自动识别法律文本的法律关系,并向法律知识链自动生成模块推送推送法律关系;法律知识链自动生成模块用于通过法律实体自动识别模块和法律关系自动识别模块推送的实体和关系,生成候选知识链。

进一步的,还包括法律知识图谱应用服务模块,其用于提供系统中的应用接口。

与现有技术相比,本发明具有如下优点和有益效果:

本发明提供的方法及系统实现了针对法律数据构建知识图谱,通过本发明能够在多个法律案由,如离婚纠纷、合同纠纷和机动车交通事故责任纠纷等案由数据构建知识图谱,为法律行业的上层应用提供了走向智能化的数据。本发明将法律专家知识和深度学习相结合,实现了对海量法律数据的自动化识别、抽取和集成,节省了大量的人力物力。同时使得构建出来的法律知识图谱更符合人对法律的理解。

附图说明

图1为知识图谱的构建体系示意图。

图2为法律词典构建流程示意图。

图3为法律实体识别模型展开结构示意图。

图4为法律关系识别模型流程示意图。

图5为基于法律数据的知识图谱构建系统结构示意图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提出了法律知识图谱构建的体系,通过法律专家知识定义法律实体、法律关系和法律知识链,解决法律知识图谱在计算机中定义问题,解决认知的问题;通过多项自然语言处理技术构建了自动化的工具,提取法律文本中图谱内容。

本发明中法律知识图谱主要由法律实体库,法律关系库和法律知识库构成,如要构建知识图谱需要实现法律实体预识别、法律关系预识别、法律知识库构造。

法律实体预识别:在法律文本集中,通过机器学习算法结合自定义的专家法律知识,提出备选法律实体。提取法律实体的特征,建立评估函数,对备选的法律实体打分,然后输出法律实体,存入实体库。

法律关系预识别:将法律文本经过预处理,生成多条知识文本,识别出该文本中所包含的实体,然后对其作词性标注、句法分析等处理,提取出实体对应的关系,存入实体库。

法律知识库构造:输入知识文本,匹配出实体和关系,组织构造成知识链,然后存入知识库。

更为具体的说,本发明提供的法律数据的知识图谱构建方法,包括如下步骤:

步骤1,法律词典的构建。

本步骤构建流程如图2所示,首先下载以及人工标注法律种子词库,同时训练法律文本语料得到法律词向量;然后计算与词向量相似的候选法律词;最后筛选候选法律词是否有效。计算相似度公式为:其中w1,w2为法律词汇的词向量。

步骤2,法律短语的提取。

计算方式有两种:

2、利用信息熵来提取组合词语,左右熵的具体计算公式如下:

其中,el(w)、er(w)分别是当前词的左熵和右熵,p(aw|w)为当前词左边出现词的条件概率,p(wb|w)为当前词右边出现词的条件概率。左右熵值越大,表明词语组合成短语的可能性就越大。

本发明综合排序上述两种计算方法,综合这两种方式计算的分数,使用加权平均的方式做排序筛序出短语候选组。

步骤3,法律文本的预处理。将步骤1、步骤2中构建的法律词典、法律短语作为分词工具的扩展词,对原始法律文本数据进行分词、词性标注、句法分析等,完成法律语料文本的预处理工作。

步骤4,法律知识的初步构建。该步骤也是法律知识图谱构建的基础工作,主要法律专家标注或众包标注的形式来完成,具体包括以下子步骤:

4.2、在步骤3的基础上标注一定量的法律数据,主要由法律专家标注或者使用众包技术来标注特定需求的法律数据语料。

步骤5,法律实体识别。

对步骤4已标注的法律文本数据,进行实体特征的抽取(如:语法特征、实体上下文特征、实体词向量特征等),并将抽取的特征用于法律实体识别模型的输入,从而实现法律实体自动识别。法律实体识别模型结构包括输入层、隐藏层、输出层,模型的展开结构如图3所示,通过该隐藏层能够根据历史信息的标签来预测当前的标签。其le为法律实体(legalentity,le),bieo分别为实体词的开始,中间、结尾和非实体词构成部分,模型计算过程如下:

步骤6、法律关系识别。对法律专家标注的法律文本数据,使用步骤4.1中定义的法律关系规则模板,从文本中学习法律文本的关系表达式,结合机器学习方法来实现法律关系自动发现。其识别过程如图4所示,包括如下过程:

6.1、抽取法律文本的依存句法特征,制定关系抽取模板。如:并列关系coo结构模板(实体1,并列关系词(和、与等),实体2)、主谓关系sbv结构模板(实体1,能动关系词(导致、申请等),实体2)等。

6.2、对法律语料进行预处理,进行语义特征、关系类别特征的抽取。

6.3、将抽取得到的特征值代入到关系抽取模型(如:bootstrapping方法)进行关系抽取。

步骤7、法律知识链构造。原始法律文本经过步骤5和步骤6识别到的法律实体和法律关系,使用基于法律实体词和法律关系的法律事理图谱推理引擎来识别法律知识链,完成法律知识链的构造。例如:a、感情破裂并且调解无效准予离婚;b、管理人知道驾驶人不能驾驶机动车认定有过错承担赔偿责任;c、贷款人未按约提供借款承担赔偿损失。

本发明还公开了一种基于法律知识的知识图谱构建系统,如图5所示,该系统包括:法律基础词典构建模块、法律基础知识库构建模块、法律实体自动识别模块、法律关系自动识别模块、法律知识链自动生成模块和法律知识图谱应用服务模块。

其中:法律基础词典构建模块,用于构建和扩充法律基础词典,实现上述步骤1-3功能;法律基础知识库构建模块,用于构建法律专家知识库,制定法律专家知识模板,实现上述步骤4功能;法律实体自动识别模块用于自动识别法律文本的法律实体,实现上述步骤5功能,并向法律知识链自动生成模块推送法律实体;法律关系自动识别模块用于自动识别法律文本的法律关系,实现上述步骤6功能,并向法律知识链自动生成模块推送推送法律关系;法律知识链自动生成模块,用于通过法律实体自动识别模块和法律关系自动识别模块推送的实体和关系,生成候选知识链,实现上述步骤7功能;法律知识图谱应用服务模块用于提供知识图谱上的应用接口,例如法律实体识别接口、法律关系识别接口、法律路径逻辑推理接口,该接口模块在某些应用场景下可以省略,并非必需。

基于上述方法和系统,本发明能够针对法律数据构建知识图谱,并能够在法律问答、法律知识智能检索、案例智能检索等应用中起到重要支撑作用。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

THE END
1.AI大模型用LLMGraphBuilder构建知识图谱实战篇本文深入探讨了LangChain框架中基于大型语言模型(LLM)的LLM图转换器,展示了如何从文本中提取实体和关系,进而构建知识图谱。文章首先介绍了使用Neo4j作为图数据库的环境设置,强调了其内置的图形可视化功能,方便用户直观地理解数据结构。 LLM图转换器提供了两种主要模式:基于工具的模式和基于提示的模式。前者利用LLM的结构化https://blog.csdn.net/2401_85325557/article/details/143966636
2.山东亚微软件取得知识图谱与规则约束相结合的数据智能分析方法及系山东亚微软件取得知识图谱与规则约束相结合的数据智能分析方法及系统专利,专利,大模型,亚微软件,知识图谱,数据智能分析https://www.163.com/dy/article/JHR5ABL00519QIKK.html
3.法律知识图谱法律知识图谱,福昕PDF转换教程中心提供专业全面的pdf怎么转换成word,pdf转图片,pdf快速批量合并等多种格式互转技巧教程资讯,以及提供福昕pdf转换器免费下载试用,帮您轻松解决各种pdf转换难题,助您高效办公.https://www.foxitsoftware.cn/pdf365/tags/11743/
4.刑事法律知识图谱构建技术研究《贵州大学》2022年硕士论文知识图谱不仅利用节点和边将不同种类的知识关联起来,形成一个庞大的知识体系供用户查询,而且知识图谱本身还具有一定的推理功能,能够在原来知识的基础上推理出新的知识。因此本文基于刑事领域的司法数据,研究刑事法律知识图谱构建技术,以辅助用户做出合理决策。刑事法律知识图谱构建技术研究工作包含以下几个部分:(1)刑事裁判https://mall.cnki.net/magazine/article/CDMD/1022612913.htm
5.基于法律的知识图谱构建自2012年谷歌提出“知识图谱”(Knowledge Gragh,KG)以来,各行各业的人们不断进行相关研究,知识图谱在法律领域也引起了研究者们的关注,但是目前这方面的研究工作很少有相关的文献报告。本文旨在研究法律领域的知识图谱构建,从中国裁判文书网上获取判决书,以判决书为数据进行相关研究。 由于没有公开的法律领域的标注语料https://d.wanfangdata.com.cn/thesis/D01714992
6.法信APP小程序再升级!新增四大专库!“指尖滑动”的时代移动端让我们在任何时间、地点都能与知识保持连接法信APP与小程序再次升级新增四大专库四大专库以相关法律条文为核心,一站式汇聚相关研习、实务所需法律法规、法条释义、权威案例、文献资源等信息为您提供更全面、更便捷的法律知识资源检索服务快和https://mp.weixin.qq.com/s?__biz=MzA3MDczNDQwMw==&mid=2652731306&idx=1&sn=f0e1f0f3ff9568c01f65c2156c188d93&chksm=85def7d36c914ed7f81630f46bd325499b3d4ed7b1dc794751560c334618b6169e6e8dedc19d&scene=27
7.法律责任知识图谱示例在线构建节点关系图谱,制作3D动态关系网,关系图百科,人物关系图生成器,便捷思维导图,知识图谱大全。https://nrdstudio.cn/app/2fee44b77b865c9cc285ca757149ba51
8.学院法律事务专业课程建设知识图谱项目采购公告根据《四川司法警官职业学院采购管理办法》,我院拟采取竞争性磋商方式采购法律事务专业课程建设知识图谱。欢迎符合条件的供应商参加。 一、项目概况 1.项目名称:法律事务专业课程建设知识图谱 2.项目编号:jycg2023055 3.采购方式:竞争性磋商 4.资金预算(最高限价):10万元 http://www.sjpopc.net/info/1003/7163.htm
9.全网最火的AI技术:GraphRag概念详解51CTO博客法律问题往往牵涉到复杂的法规、案例和法律解释。GraphRAG能够通过构建法律知识图谱,帮助法律从业者更快速、准确地找到相关法律条文和案例,生成法律意见或建议。 4.3 科研和教育 在学术研究中,科研人员需要在大量文献中找到与研究问题相关的信息。GraphRAG可以通过构建科研领域的知识图谱,提高文献检索的效率,并为科研人员生https://blog.51cto.com/u_12440558/11979866
10.元典智库元典智库是由华宇软件公司旗下推出的一个专为法律专业人士设计的综合性法律知识服务平台和法律知识搜索引擎,基于法律知识图谱和先进的人工智能技术,提供全面、精准的法律信息检索服务。https://ai-bot.cn/sites/13593.html
11.达观数据法律行业解决方案自然语言处理达观通过先进的文本解析技术,让机器解读出和法律规则、交易规则、等有关的重要信息,改变法律服务领域的已有格局和传统工作方式https://www.yun88.com/solution/715.html
12.GitHub中文法律案件知识图谱(Chinese Legal Case Knowledge Graph Dataset) 为了描述复杂场景下主客体之间的法律关系,表示案情事实,构建了法律案件知识图谱。 数据格式 每条数据存储为dict,case为案情描述,triples为对应三元组。 { "case": "原告张某1,男,1974年10月25日出生,汉族,农民。被告刘某1,男,1983年11月8日出生https://github.com/cheeryoung79/LegalCaseKnowledgeGraph
13.知识图谱图书情报界称知识图谱(Mapping Knowledge Domain)为知识域可视化或知识领域映射的地图,用以显示某一学科知识进程与结构关系一系列的发展状况的图形。 通过挖掘、分析、整理、显示和导航该学科知识资源及它们之间的相互关系[1],展示知识结构关系与发展进程。也就是说,知识图谱是把应用数学、图形学、信息可视化技术、信息科https://www.pkulaw.com/specialtopic/000526f0c734a0cda3256a228a5363d2bdfb.html
14.百度法律AI:赋能法治建设,引领法律科技创新AI百科随着人工智能技术的发展,其在各行各业的应用日益广泛。在法律领域,人工智能技术也展现出巨大的潜力,百度法律 AI 便是一项突破性的创新技术。 百度法律 AI 概述 百度法律 AI 是百度公司基于多年积累的大数据和自然语言处理技术开发的一款人工智能产品。它通过融合法律大数据、权威法律知识图谱和先进的 AI 算法,为法律行https://heiti.cn/ai/14649.html
15.华宇软件法律知识搜索引擎——元典智库:提供全面精准的法律信息华宇软件公司推出的元典智库是一个专为法律专业人士设计的综合性法律知识服务平台和搜索引擎。它基于法律知识图谱和人工智能技术,为用户提供全面而精准的法律信息检索服务。元典智库整合了超过400万条的法律法规、案例和文献等法律数据资源,支持用户通过多维度的法律要素进行查询。 https://heehel.com/ai-soft/tools-text-audio/yuandian-think-tank.html