知识图谱文献综述(第四章实体关系学习)慕云深

关系定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。关系抽取的输出通常是一个三元组(实体1,关系,实体2)。例如,句子“北京是中国的首都、政治中心和文化中心”中表述的关系可以表示为(中国,首都,北京),(中国,政治中心,北京)和(中国,文化中心,北京)。

关系抽取是知识图谱构建和信息抽取中的一个关键环节,具有重要的理论意义和广阔的应用前景,为多种应用提供重要的支持,主要表现在:

(1)大规模知识图谱的自动构建。很多互联网应用都需要知识图谱的支撑,这个知识图谱不仅包含WordNet、HowNet等常识知识图谱中的通用语义知识,而且包含百科全书、领域知识图谱中的领域语义知识。如果能把多源异构知识集成为一个大的知识图谱,将可能提高很多互联网应用系统的性能,并开创语义网时代的很多应用。现有的知识图谱如WordNet、HowNet和CYC等大多数依靠专家人工编撰。随着互联网的发展,知识呈爆炸式增长,人工构建知识图谱特别是构建领域知识图谱时遇到了很大困难,不仅费时费力,而且存在知识覆盖率低、数据稀疏和更新缓慢等问题。利用关系抽取技术,知识图谱可以根据结构化的抽取结果自动生成。典型的例子有:Freebase、Yago和BDpedia。

(2)为其它信息获取技术提供支持。

(3)自然语言理解。目前深层的语言理解系统在正确率和性能方面还难以令人满意,关系抽取是篇章理解的关键技术,运用语言处理技术可以对文本的核心内容进行理解,因此语义关系抽取的研究将成为从简单的自然语言处理技术到真正的自然语言理解应用之间的一个重要纽带,能改进自然语言处理领域的很多任务的性能,如实体链接和机器翻译等。

关系抽取系统处理各种非结构化/半结构化的文本输入(如新闻网页、商品页面、微博、论坛页面等),使用多种技术(如规则方法、统计方法、知识挖掘方法),识别和发现各种预定义类别和开放类别的关系。根据关系类别是否预定义,目前关系抽取的核心研究内容可以划分为限定域关系抽取和开放域关系抽取。以下分别介绍具体的研究内容。

限定域关系抽取。限定域关系抽取是指系统所抽取的关系类别是预先定义好的,比如知识图谱中定义好的关系类别。在限定域关系抽取中关系的类别一般是人工定义或者从现有知识图谱中自动获取。由于关系类别已经预先定义,所以一般可以人工或者基于启发式地规则自动构建标注语料。因此限定域关系抽取中的主要研究内容是如何利用有监督或弱监督的方法抽取预定义的实体关系知识。在有监督的方法中主要的研究内容集中在如何挖掘更多能表征相应语义关系的特征上。在弱监督的方法中主要的研究内容集中在如何降低自动生成语料中的噪声。

开放域关系抽取。开放域关系抽取不预先定义抽取的关系类别,由系统自动从文本中发现并抽取关系。因此开放域关系抽取也称为开放式关系发现。由于没有事先定义关系的类别,因此开放域关系发现中利用关系指示词代表关系的类型。主要的研究内容是如何利用无监督的方法自动的抽取关系三元组。

关系抽取目前主要面临如下三个挑战:

按照机器学习方法对语料库的不同需求大致可分成三大类:无监督关系抽取,有监督关系抽取、弱监督关系抽取。无监督关系抽取希望把表示相同关系的模版聚合起来,不需要人工标注的数据。有监督关系抽取使用人工标注的训练语料进行训练。有监督关系抽取目前可以取得最好的抽取效果,但是由于其需要费时费力的人工标注,因此难以扩展到大规模的场景下。因此有学者提出了利用知识库回标文本来自动获得大量的弱监督数据。目前弱监督关系抽取是关系抽取领域的一大热点。

3.2.2.1无监督关系抽取

无监督关系抽取方法主要基于分布假设(DistributionalHypothesis[Harrisetal.,1954]理论,分布假设的核心思想是:如果两个词的用法相似及出现在相同上下文中,那么这两个词就意思相近。相应的,在实体关系抽取中,如果两个实体对具有相似的语境,那么这两个实体对倾向于具有相同的语义关系,基于此理论,无监督关系抽取将两个实体的上下文作为表征语义关系的特征。

基于分布假设理论,首先由[Hasegawaetal.,2004]提出了一种基于无监督学习的实体关系发现方法,该方法将大量文本中同一实体对的所有上下文收集起来,并把这些上下文作为表示语义关系的特征,然后采用层次聚类的方法将特征相似度较高的实体对聚集在一起,最后从一个聚类中挑选出频率最高的词作为该类关系的名称。

[Chenetal.,2005]对Hasegawa的方法进行了改进,他们的方法将每个实体对的上下文,而不是所有相同实体对的上下文,作为实体之间的语义关系特征。在聚类时,先采用基于熵的方法对词汇特征进行排序,以提高特征集的空间搜索效率。最后使用DiscriminativeCategoryMatching(DCM)理论[Fungetal.,2002]来衡量特征在某个聚类中的重要性。无监督关系抽取的核心是选取表示实体之间关系的特征,然后再聚类。上文介绍的方法主要选取上下文特征,与之不同的是,

[Bollegalaetal.,2010]利用关系的对偶性(RelationDuality),提出实体对空间和模板空间可以相互表示,基于这个理论,使用协同聚类来发现实体对及其关系模板的聚类簇,从每个聚类的簇里面选择代表性的模板当作此簇对应的关系。另外,无监督关系抽取面临着关系聚类簇中的多义问题,即同一个模板可能表达不同的关系,针对此问题,

[Yaoetal.,2012]使用主题模型(TopicModel)将实体对及其对应的关系模板分配到不同34的语义类别上,然后再使用聚类的方法将这些语义类别映射到语义关系。无监督关系抽取方法可以发现新的关系,但其发现的新的关系往往是相似模板的聚类,其缺点是得到的关系不具语义信息,难以规则化,很难被用来构建知识库,如果需要得到语义关系,需要通过将其同现有知识库的关系进行对齐,或者通过人工的方式来给每个聚类关系簇赋予语义信息。

3.2.2.2有监督关系抽取

在使用有监督的方法解决关系抽取问题时,一般将关系抽取看作是一个多分类问题,提取特征向量后再使用有监督的分类器进行关系抽取,有监督的方法性能较好[Zhouetal.,2005][Mooneyetal.,2006][Bunescuetal.,2005],目前占据主导地位,研究人员在这方面做了大量的工作。有监督关系抽取可以分为:基于特征向量的方法、基于核函数的方法和基于神经网络的方法。

基于特征向量的方法特点是需要显式地将关系实例转换成分类器可以接受的特征向量,其研究重点在于怎样提取具有区分性的特征,通过获取各种有效的词汇、句法和语义等特征,然后有效地集成起来,从而产生描述关系实例的各种局部和全局特征。

基于核函数的关系抽取最早由

[Zelenkoetal.,2003],他们在文本的浅层句法树的基础上定义了树核函数,并设计了一个计算树核函数相似度的动态规划算法,然后通过支持向量机(SVM)和表决感知器(VotedPerceptron)等

[Grishmanetal.,2005]分类算法来抽取实体间语义关系。

[Culottaetal.,2004]提出基于依存树核函数的关系抽取,他们使用一些依存规则将包含实体对的句法分析树转换成依存树,并在树节点上依次增加词性、实体类型、词组块、WordNet上位词等特征,最后使用SVM分类器进行关系抽取。

Mooney和Bunescu[Bunescuetal.,2005]进一步使用最短依存树核函数,该核函数计算在依存树中两个实体之间的最短路径上的相同节点的数目,要求对于具有相同关系的实体对,其对应的最短依存树具有相同的高度且达到根节点的路径相同。为解决最短依存树核函数召回率较低的问题,

Bunescu和Mooney[Mooneyetal.,2006]又提出基于字符串序列核函数的关系抽取,首先提取出两个实体之间和前后一定数量的单词组成字符串并把其作为关系实例的表达形式,规定子序列中允许包含间隔项,进而实现关系抽取。

3.2.2.3弱监督关系抽取

有监督关系抽取需要大量的标注样本,而人工标注数据费时费力、一致性差,尤其是面向海量异构的网络数据时,问题就更加明显,为此,研究人员提出弱监督关系抽取。

弱监督关系抽取主要有两种框架:

弱监督回标思想最早由[Cravenetal.,1999]提出,主要研究怎样在文本中抽取结构化数据建立生物学知识库(BiologicalKnowledgeBases),他们利用YeastProteinDatabase自动产生标注数据,然后训练朴素贝叶斯分类器抽取结构化数据。

紧接着,[Mintzetal.,2009]使用利用Freebase作为知识库,将其中的关系实例所包含的实体同维基百科文本中的实体对齐,以此产生训练数据,然后使用逻辑斯谛回归进行关系抽取。弱监督回标主要基于以下假设:如果两个实体在知识库中具有一定的关系,那么根据同时包含这两个实体的句子,就都能推断出实体对在知识库中具有的关系。由于语言表达的多样性,弱监督的这种假设往往太过强烈,两个实体出现在同一个句子中并不能表示它们就一定具有某种语义关系,有可能这两个实体只是属于同一个话题而已[Riedeletal.,2010]。因此,虽然弱监督方法克服了有监督方法需要人工标注数据的不足,但也带来了新问题——回标噪声问题。研究人员提出了一系列模型和方法来克服回标噪声问题,Riedel等将弱监督关系抽取看作是一个多示例问题,他们的假设中,只需要在回标出来的所有句子中,有一个句子能表示两个实体间的关系。将所有回标的句子看作一个包,其中的每一个句子就是包中的一个示例,从而解决回标噪声的问题。

[Hoffmannetal.,2011]更进一步,在多实例模型中考虑实体对间可能不止有一种关系,取得了更好的效果。

[Surdeanuetal.,2012]不但对噪声训练数据进行建模,并对实体对可能属于多个关系类型这个问题进行建模,他们提出了基于概率图模型的多实例多标签模型,在以Freebase为知识库和纽约时报作为回标语料的数据上进行实验,结果表明其模型提升了原始方法的抽取效果。

上述方法都是基于传统特征的,然而传统特征的设计耗时费力,扩展性差。

面向开放域的可语义化的关系抽取技术目前,绝大部分的关系抽取研究集中预定义的关系抽取上,并致力于构建更精准的有监督抽取模型和方法,使用标注语料训练模型参数。然而,在构建真实环境下的关系抽取系统时,这些有监督方法往往存在如下不足:

1)更换语料类型之后,现有模型往往会有一个大幅度的性能下降;

2)无法抽取目标关系类别之外的实体关系知识;

3)性能依赖于大规模的训练语料;

4)现有监督模型往往依赖于高复杂度的自然语言处理应用,如句法分析。

THE END
1.如何分析重要句子的含义和作用2、从语句特点上说,重要句子指在文中起重要作用的中心句、总结句、过渡句,理解对文脉的推进与转接有关键作用的句子。 3、从内容上说,重要句子指内涵较为丰富而且具有提示性或引导性的语句; 4、从表达上说,重要句子指比较含蓄的有深层含意的语句; 5、从结构上说,重要句子指结构比较复杂,对理解文意有直接影响的http://fabu.ouyu158.com/show-k73nt02jhh.html
2.8.28这里所说的“两词语属于同一语法成分”,是指在句中要作主语都作主语,要作宾语都作宾语。如果去掉它们中的一个词语,句子的结构关系一般不受影响,句子仍然成立,意义也基本不变。如上面的句子可以改为“这位是我们的班长”、“这位是老王”。 二、复指成分的类型 https://www.douban.com/note/635710608/
3.2020年的12月,让这100句冬天“文案”温暖你能真正和你产生关系的不多; 外面那么冷, 你更要记住那个帮你暖被窝的。 —— 韩寒《让大家扫兴了》 85 从某种意义上来看,世间一切,都是遇见。 就像,冷遇见暖,就有了雨; 春遇见冬,有了岁月; 天遇见地,有了永恒; 人遇见人,有了生命。 —— 董卿 《朗读者》 https://www.niaogebiji.com/article-31992-1.html
4.初中语文文言文词类活用古今异义字一词多义在句子中,形容词如果处于主语或宾语的位置,具有明显的表示人或身份的特征和意义,形容词就转化为名词。如“无鲜肥滋味之享”(《送东阳马生序》)中的“鲜肥”,就是形容词转化为名词,作“新鲜肥美的东西”讲。 (7)形容词活用为动词 形容词后面带了宾语,形容词就转化为动词。如“天下苦秦久矣”(《陈涉世家》https://www.360doc.cn/mip/370594510.html
5.构式语法理论研究11篇(全文)构式语法的一个基本假设是“情景编码假设”,即与基本句子类型对应的构式,把与人类经验相关的基本事件编码为这些构式的中心意义。因此,具体构式的意义是将词项的表达与构式所拥有的意义进行了整合而成。这就形成了构式语法的研究意义,构式的意义一经形成,便独立于实际的语言应用,并反过来对其构式成分的语义意义进行了https://www.99xueshu.com/w/ikeyk4nfepuk.html
6.重庆市四十九中学高三语文复习教案二(教师中心吐血力荐)这类题型从句序与表达关系的角度测试句子组合能力。解答这类题型的关键是正确分析句与句的关系,然后才能判定句序变化后表达的意思是否发生了变化。 A项两句间有逻辑因果关系,“人不犯我”是条件,“我不犯人”是结果。对调后,意思当然发生了根本性变化。B项两句间没有逻辑因果关系,“艳若桃李”与“冷若冰霜”,语https://www.diyifanwen.com/jiaoan/gaosanyuwenjiaoan/042543076104254297320315.htm
7.语言学概论课后习题及答案整理(二)答:语言符号的系统性表现在语言中的各种单位相互间紧密联系,彼此依存,组成 一个系统。语言可以分为不同的层级单位,如语素,词,词组,句子等。语言系统就是由音位,语素,词,词组,句子等结构单位组成的一个层次体系。 20.举例说明什么是组合关系,什么是聚合关系? https://www.jianshu.com/p/989c4c2a425c