信息抽取——关系抽取西多士NLP

显然,信息抽取任务与命名实体识别任务类似,但相对来说更为复杂。有时,信息抽取也被称为事件抽取(eventextraction)。

与自动摘要相比,信息抽取更有目的性,并能将找到的信息以一定的框架展示。自动摘要输出的则是完整的自然语言句子,需要考虑语言的连贯和语法,甚至是逻辑。有时信息抽取也被用来完成自动摘要。

由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息,无论是在知识图谱、信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。

信息抽取主要包括三个子任务:

关系抽取通常再实体抽取与实体链指之后。在识别出句子中的关键实体后,还需要抽取两个实体或多个实体之间的语义关系。语义关系通常用于连接两个实体,并与实体一起表达文本的主要含义。常见的关系抽取结果可以用SPO结构的三元组来表示,即(Subject,Predication,Object),如

中国的首都是北京==>(中国,首都,北京)

关系抽取的分类:

随着深度学习以及词向量的发展,近年来大多的关系抽取模型都采用词向量作为关系抽取的主要特征,且均取得了非常好的效果。限于篇幅,本文仅对有监督学习下的Pipline经典模型进行介绍

在深度学习兴起之前,关系抽取的传统方法依赖于特征工程,而这些特征通常由预先准备的NLP系统得到,这容易在构造特征的过程中造成误差累积,阻碍系统性能。

模型的输入主要包括两个部分,即词汇级别特征以及句子级别特征:

小结:该模型将关系抽取任务利用神经网络进行建模,利用无监督的词向量以及位置向量作为模型的主要输入特征,一定程度上避免了传统方法中的误差累积。但仍然有lexicallevelfeature这个人工构造的特征,且CNN中的卷积核大小是固定的,抽取到的特征十分单一

该论文首先提出关系分类和关系抽取两个主要任务:

小结:该论文的模型输入完全没有人工特征,且使用多宽度大小的卷积核进行特征抽取,相对于Zeng的效果来说仅提升了\(0.1\%\),个人认为提升的主要关键点在于多粒度大小的卷积核上,而lexicalfeature在这种简单的深度学习模型上还是能够起到一定的效果的,这在之后的工作中也得到了证实

这篇论文同样是在Model1基础上的改进,模型的基本架构与之前基本一致,最大的改变损失函数。模型结构如上图所示,主要有以下几个部分:

这个损失函数主要有以下几个特点:

在这篇论文之前有过利用简单的RNN和BiRNN作为模型编码模块的处理关系抽取任务的,但是效果较CNN来说差的就不是一点两点了,这里就不提了。该论文用经典的BiLSTM作为模型主要模块,此外,重新考虑了lexicalfeature,实验证明lexicalfeature对模型性能确实有十分明显的提升效果。

模型的主要架构是BiLSTM,这个结构大家再熟悉不过了,论文也没有贴模型整体图,这里我也偷下懒...接下来分段阐述一下模型的主要工作。

小结:论文最后测试了不加人工特征,只用wordembedding,结果下降了\(1.5\)个点,说明人工特征还是有一定效果的。此外,论文还测试了移除某个特征对模型的影响,发现位置特征和NER特征的移除对模型的影响非常小,这也是十分好理解的,这里就不多说了。

模型的主要架构如上图所示。其实模型的主要架构还是比较常规的,下面简单介绍一下:

其中,\(H\)为BiLSTM的所有时刻的输出,\(w\)为随机初始化的参数向量,同时也参与到模型训练,\(\alpha\)为注意力分数的计算结果,\(r\)为对\(H\)注意力分数加权的结果,最后还对注意力加权结果通过一个\(tanh\)激活函数,即\(h^*=tanh(r)\)得到注意力层的输出

小结:从论文的结果来看,不进行特征工程,仅仅将整个句子作为模型输入,并加入注意力机制,模型效果得到了非常大的提高,一方面说明必要的特征工程还是有效的,另一方面表明注意力机制也起到了十分明显的作用

模型的主要结构如上图所示,下面分别阐述下模型的各个模块:

在求得每个词针对两个实体的注意力分数之后,对之前的词表征进行处理,文中给出的处理方法有三种:

最后的\(w^O\)即为整个模型的输出向量

其中,\(\hat{y}^-\)为所有标签中与\(w^O\)距离最大的负标签(个人在这里存在疑惑,认为这个应该是与\(w^O\)距离最小的负标签才更为合适,因为我们期望将最易分错的类别与\(w^O\)应该尽量远)

小结:可以看到这篇论文的两次Attention以及损失函数的设计都是十分巧妙的,且论文中提到效果非常好,许多技巧还是可以借鉴的。

论文的主要思想是对两个实体间的词法句法的最短依赖路径SDP(shortestdependencypath)进行建模,这也是常见的一种关系抽取任务的建模方法,并与之前的建模方式存在一些区别,下面相对详细地阐述一下。

由于受到卷积神经网络和循环神经网络特性的限制,之前的工作将句法依赖关系看作是词或者某些句法特征,如词性标签(POS)。该论文的第一个贡献就是提出了一种RCNN的网络结构:

模型细节如上图所示,下面简单讲解一下整个模型结构:

其中,\(W_{con}\)和\(b_{con}\)为卷积神经网络参数。在这之后,使用一个MaxPooling层局部特征进行池化操作。由于模型是双向分别处理的,两个方向的模型分别得到一个池化结果\(\overrightarrow{G}\)和\(\overleftarrow{G}\)。-Classifier:输出层由3个分类器组成-coarse-grainedsoftmaxclassifier:将双向的池化信息拼接作为分类器输入,为一个\((K+1)\)类的分类器,即$$y=softmax(W_c[\overrightarrow{G};\overleftarrow{G}]+b_c)$$-fine-grainedsoftmaxclassifiers:两个分类器共享参数,分别对两个方向的池化信息单独进行分类,为一个\((2K+1)\)类的分类器,作者认为同时对两个方向的信息进行分类有助于加强模型判断关系方向性的能力$$\overrightarrow{y}=softmax(W_f\cdot\overrightarrow{G}+b_f)\\overleftarrow{y}=softmax(W_f\cdot\overleftarrow{G}+b_f)$$

而对于解码过程,两个实体之间只存在一个单向的关系,因此仅需要两个fine-grainedsoftmaxclassifiers的输出结果即可

其中,\(\alpha\)为一个超参数,论文中将其设置为0.65。另外由于两个预测结果的方向是相反的,因此需要用一个函数\(z(·)\)来将\(\overleftarrow{y}\)转化为与\(\overrightarrow{y}\)对应的格式

小结:将词法句法的SDP作为输入特征来实现关系抽取也是常见的一种建模方法,且效果也非常不错。这篇论文通过对文本以及依赖关系分别建模,利用LSTM和CNN进行不同层次的特征编码,并分两个方向进行信息融合,确实是一大亮点。如果词向量只用WordEmbeddings,分数可以达到85.4,如果加上NER、POS以及WordNet等特征可以达到86.3。

将关系抽取看作单独任务的模型总结就做到这里了,或许之后看见更优秀的论文还会进行一些更新,这里将每个模型在SemEval-2010Task-8上的分数都记载一下:

总的来说,人工特征、句法特征、注意力机制、特殊的损失函数都是关系抽取模型性能提升的关键点,其余的就需要在模型架构上进行合理的设计了,下一篇准备介绍实体与关系联合抽取模型,争取早点写出来...

THE END
1.人际关系的句子关于人际关系的句子描写人际关系的好句人际关系的句子、描写人际关系的句子、关于人际关系的句子、金句、经典语句文案欣赏:1.我其实并不孤僻,简直可以说开朗活泼,但大多时候我很懒,懒得经营一个关系,还有一些时候,就是爱自由,觉得任何一种关系都会束缚自己。当然最主要的,还是知音难觅。我老觉得跟大多数https://www.mingyantong.com/tags/168461
2.关系造句好工具造句栏目为您提供2024年的关系的造句相关内容,本栏目原创编辑和精选收集了252条关系的造句一二年级例句供您参考,同时也为您推荐了关系的解释(永远地;无例外地)、近反义词和组词。 关系造句 1、同学之间关系单纯,不像成人之间那么复杂。 2、妈妈和张阿姨交往频繁,两家的关系很好。 3、为了做好工作,应该进一步https://www.hao86.com/zaoju_view_9b891843ac9b8918/
3.关系句子大全关于关系的句子相关内容关系句子,当前第(1)页展示 晚安心语:最好的关系,是相处不累 1、所谓的诗和远方,是要把眼前的苟且熬过了才有的。 2、一个人的豁达,体现在落魄的时候。一个人的涵养,体现在愤怒的时候。一个人的体贴,体现在悲伤的时候。一个人的成熟,体现在抉择的时候。--谁都愿意做自己喜欢的事情,可是,做你该做的事情,http://www.cisha.org.cn/haojuzi/tags_14192_1.html
4.朋友关系的句子关于朋友关系的句子描写朋友关系好句子朋友关系的句子 (收录1个句子) 微信用户5669 创建于 2024-09-02 20:00:36关于朋友关系的经典句子,根据受欢迎度排序。 发布《朋友关系》的句子 喜欢专辑(0) 纠错反馈 微信用户5669 2月前 我们之间的就像书页的折角抹平也有痕迹,不去在意,但也在心中留下遗憾 喜欢(1) 评论 加入句集 微信用户5669 https://juzi.co/tags/4d22d9cc0a5a970a247da024a5f0891d.html
5.关于任何关系都是相互的句子(最新整理)经典句子关于任何关系都是相互的句子(最新整理) 温馨提示:在浏览“关于任何关系都是相互的句子(最新整理)”的时候,遇到了一点问题,该内容由用户上传,目前的状态为内容正在审核中。 对本文进行反馈,可以加快审核进度或“点击这里”前往其他网站查看。https://www.027art.com/fanwen/gzh32/tS22Gq8843l381.html
6.断绝兄弟关系的句子对兄弟寒心的句子说说心情用什幺句子可以形容兄弟决裂后的样子? 1、友谊一旦消散,许诺就是一张白纸。 2、新事物必将代替往事物,世事如斯,更何况你我。 3、相处之时不知愁,而今唯形同陌路。 4、小小的我回想我们那时傻傻的同行的影子,它却碎的再也拼不起来。 5、桥断了,人散了,桥上美妙的所有决裂了,伸手去抓,也是惘然。 https://www.xdyy8.com/juzi/3555.html
7.关于人际交往的经典句子(通用14篇)篇3:关于人际交往的经典句子 人际交往是人类的基本社会活动, 是形成人际关系的基础。人们在相互作用、相互影响的过程中, 与他人建立起人际关系。建立良好的人际关系是人类的一项基本需求。亲密和谐的人际关系让人的情感需要得到满足, 有利于身心健康发展;而不良的人际关系则会使人感到孤独、缺乏安全感和归属感, 进而产https://www.360wenmi.com/f/filempxhx7cs.html
8.大象夜读“血缘真那么重要吗”?3娃非亲生案男子有话说关于血缘关系的句子 1.无血缘的陪伴,胜过血缘的纽带,让我们的心灵相连。 2.亲情,与生俱有,源于血缘,但又不囿于血缘。岁月的洗礼,会显现亲情的浓淡;物欲的考验,会证明亲情的真假。 3.有些人,没有血缘关系,却是你生命里不可或缺的存在。 4.这个世界上最好的,最不好的关系都莫过于结发夫妻。没有血缘,却要http://news.hnr.cn/djn/article/1/1739636110405328897
9.句子的关系类型关联词有哪些(关联词的八种关系)二、句子关系的分析 1.找出句子之间的连接词:连接词是表示不同关系类型的重要元素。 2.注意上下文:上下文常常提供关于句子之间关系的信息。合适的上下文可以指导我们判断连接词。 3.理解句子之间的逻辑关系:这是最重要的部分,因为句子的逻辑关系是判断句子类型的基础。 https://m.douban.com/note/853848349/
10.关于朋友关系慢慢疏远的说说关于朋友关系慢慢疏远的说说 随着社交网络的发展,越来越多人钟情于在社交平台上发布说说,用以宣泄自己的情绪,调节心情。你知道发什么样的说说才能避免雷同吗?以下是小编整理的关于朋友关系慢慢疏远的说说,欢迎阅读与收藏。 关于朋友关系慢慢疏远的说说1 1、很多推脱之词我还是看的出来,所以,很多关系总会慢慢疏远。习惯https://www.qunzou.com/shenghuo/shuoshuo/451781.html
11.HuggingFace简明教程huggingface官网文章浏览阅读1.5w次,点赞21次,收藏94次。本文介绍了HuggingFace社区及其提供的先进NLP模型,包括GPT2、BERT等,并展示了如何在Python环境中安装、使用字典、分词工具、数据集、评价函数和pipeline方法。通过三个实战任务——中文分类、填空和句子关系推断,来实践应用。https://blog.csdn.net/lovechris00/article/details/123010540