利用深度学习方法进行情感分析以及在海航舆情云平台的实践新闻中心数据观中国大数据产业观察

大家晚上好!首先我作一个简短的自我介绍,我叫杨欣伟,来自海航生态科技集团技术研究院,主要从事数据挖掘、算法开发方面的工作。

原理解析

在讲算法之前,我们需要先剖析一下我们要完成的任务,我们希望算法能够最大程度模拟大脑对于人类语言的处理逻辑,对文本进行褒义、贬义、中性的判断。在大多应用场景下,只分为两类。比说如,对于“喜爱”和“厌恶”这两个词,就属于不同的情感倾向。有一点需要特别注意,这里面所说的褒义、贬义并不是绝对的,分类的类别是根据我们的目标自由定义的,并且严格以人的判断为基准,比如我们可以把句子分类为陈述句、疑问句、祈使句和感叹句。

我们的第一个模型——基于情感词典的情感分类模型。

传统的基于情感词典的文本情感分类,是对人的记忆和判断思维的最简单的模拟,如图所示。我们首先通过学习来记忆一些基本词汇,如否定词语有“不”,积极词语有“喜欢”、“爱”,消极词语有“讨厌”、“恨”等,从而在大脑中形成一个基本的语料库。然后,我们再对输入的句子进行分词,看看我们所记忆的词汇表中是否存在相应的词语,然后根据这个词语的类别来判断情感,比如“我喜欢数学”,“喜欢”这个词在我们所记忆的积极词汇表中,所以我们判断它具有积极的情感。

基于上述思路,我们可以通过以下几个步骤实现基于情感词典的情感分类:包括预处理、分词、训练情感词典、判断,整个过程可以如下图表示。

1文本的预处理

2分词

为了判断句子中是否存在情感词典中相应的词语,我们需要把句子准确切割为一个个词语,即分词。现有可选择的分词工具有很多,我们可以研读各分词工具的测试报告,根据自己的需求选择合适的分词工具。

3构建情感词典

情感词典可分为四个部分:积极情感词典、消极情感词典、否定词典以及程度副词词典。为了得到更加完整的情感词典,我们可以收集多个情感词典,对它们进行整合去重,同时需要对部分词语进行调整,以达到尽可能高的准确率。

此外,我们需要根据需求加入某些行业词汇,以增加分类中的命中率。不同行业某些词语的词频会有比较大的差别,而这些词有可能是情感分类的关键词之一。比如手机行业,“耐摔”和“防水”就是在这个领域有积极情绪的词。因此,有必要将这些因素考虑进模型之中。

4分类

为了简单起见,我们将每个积极情感词语赋予权重1,将每个消极情感词语赋予权重-1,并且假设情感值满足线性叠加原理;我们已经将句子进行分词,如果分词后的词语向量包含相应的词语,就加上其对应的权值,其中,否定词和程度副词会有特殊的判别规则,否定词会导致权值取反,而程度副词则让权值加倍。最后,根据总权值的正负性来判断句子的情感。基本的规则如图所示。

最后我们需要对模型的效果进行检验。通过在我们爬取的微博语料上进行测试,基于情感词典的模型准确率只有76%,这个结果有点差强人意。

那么,为什么这个模型的效果不那么好?这是由于这个任务本身的复杂性所致的。

文本情感分类的困难在于:

1语言系统是相当复杂的

人的语言是一个相当复杂的文化产物,一个句子并不是词语的简单线性组合,它有相当复杂的非线性在里面。我们在描述一个句子时,都是将句子作为一个整体而不是词语的集合看待的,词语的不同组合、不同顺序、不同数目都能够带来不同的含义和情感,这导致了分类工作的困难。因此,这个任务实际上是对人脑思维的模拟。我们前面的模型,实际上已经对此进行了最简单的模拟。然而,我们模拟的不过是一些简单的思维定式,真正的情感判断并不是只靠一些简单的规则。

2大脑做的事情比情感分类要多

通过上面的分析,我们不难发现传统的方法存在着两个难以克服的局限性:

精度问题:传统的模型无法模拟语言中复杂的非线性关系,故难以进一步提高精度;

背景知识依赖问题:传统思路需要事先提取好情感词典,而这一步骤,往往需要专业人员的大量人工操作才能保证准确率;

值得庆幸的是,深度学习帮我们解决了这两个难题,它允许我们在几乎“零背景”的前提下,为某个领域的实际问题建立模型,并且能够达到stateoftheart的结果。

下面我给大家解释深度学习是如何做到的。

自然语言处理任务中,有一个非常核心的问题,就是如何把一个句子用数字的形式有效地表达出来?如果能够完成这一步,句子的分类就不成问题了。

那么,一个初步的思路是:给每个词语赋予唯一的编号,然后把句子看成是编号的集合,比如假设1,2,3,4分别代表“我”、“数学”、“喜欢”、“讨厌”,那么“我喜欢数学”就是[1,3,2],“我讨厌数学”就是[1,4,2]。这种思路看起来有效,实际上非常有问题,比如一个稳定的模型会认为3跟4是很接近的,因此[1,3,2]和[1,4,2]应当给出接近的分类结果,但是按照我们的编号,3跟4所代表的词语意思完全相反,分类结果不可能相同。因此,这种编码方式并不可取。

有人可能会想到,把意思相近的词语的编号凑在一堆不就行了?确实如果把相近的词语编号放在一起,会大大提高模型的准确率。可是如果给每个词语唯一的编号,并且将语义相近的词语编号设为相近,实际上是假设了语义的单一性。然而事实并非如此,语义应该是高维的,一个词语在不同的语境下总是有着不同的语义。

语义既然是高维的,那么在计算机中,词语就应该表示成高维的向量。

为什么高维向量可行?首先,高维向量解决了词语的多方向发散问题。其次,高维向量允许我们用变化较小的数字来表征词语。怎么说?我们知道,就中文而言,词语的数量就多达数十万,如果给每个词语唯一的编号,那么编号就是从1到几十万变化,变化幅度如此之大,模型的稳定性是很难保证的。如果是高维向量,比如说20维,那么仅需要0和1就可以表达220=1048576(100万)个词语了。变化较小则能够保证模型的稳定性。

现在有了这个思路,新的问题是,如何把词语放到正确的高维向量中?

Google有一个著名的开源工具——Word2Vec,它完成了的我们想要做的事情。

Word2Vec使用高维向量(词向量,WordEmbedding)表示词语,并把语义相近的词语放在相近的位置。我们只需要有大量的某语言的语料,就可以用它来训练模型,获得词向量。对于词向量,我们可以使用欧氏距离或余弦相似度找出具有相近语义的词语。

有了Word2Vec,我们就可以用词向量来表示词语,那么句子就对应着词向量的集合,也就是矩阵,类似于图像处理,图像数字化后对应着一个像素矩阵。

对于图像处理来说,已经有一套成熟的方法了,那就是卷积神经网络(CNNs),它是能够将矩阵形式的输入编码为较低维度的一维向量,而保留大多数有用信息。事实上,卷积神经网络在图像处理的那一套方法也可以直接用到自然语言处理任务中。

下面我给出一个基于CNN的文本分类模型的结构图,非常直观:

这个CNN模型共分四层,第一层是词向量层,文本中的每个词,都将其映射到词向量空间,假设词向量为k维,则n个词映射后,相当于生成一张n*k维的图像;

第二层是卷积层,多个滤波器作用于词向量层,不同滤波器生成不同的featuremap;

第三层是池化层,取每个featuremap的最大值;

第四层是一个全连接+softmax层,输出是每个类别的概率。

我们使用这种基于词向量+CNN的方法做文本分类,不需要人工提取特征,不需要领域知识,整个训练过程高度自动化。在我们的任务中,这个模型的准确度可以达到90%以上,远远超过传统模型。

自然语言处理任务中,另一个常用到的方法是循环神经网络(RNNs)。它的作用跟卷积神经网络是一样的,将矩阵形式的输入编码为较低维度的一维向量,而保留大多数有用信息。跟卷积神经网络的区别在于,卷积神经网络更注重全局的模糊感知(就好像我们看一幅照片,事实上并没有看清楚某个像素,而只是整体地把握图片内容),而RNNs则是注重邻近位置的重构,由此可见,对于语言任务,RNN似乎更具有说服力。因为语言总是由相邻的字构成词,相邻的词构成短语,相邻的短语构成句子,因此,语言任务需要把邻近位置的信息进行有效的整合。

基于词向量+LSTM(Long-ShortTermMemory)的模型结构和基于CNN的模型结构是类似的,只需要把卷积层和池化层换成一个LSTM层即可。

不难发现,不管是CNN的模型还是RNN的模型,都使用词向量(WordEmbedding)来进行语义表示,事实上,基于神经网络的自然语言处理方法大都是在词向量的基础上进行的。所以,理解WordEmbedding,对于我们理解和使用深度学习的自然语言处理方法至关重要。

海航舆情云平台实践

下面我会讲上面介绍的深度学习算法在海航舆情云平台中的应用。

首先我简单介绍一下海航的舆情云平台:

舆情云平台项目的初衷是为了加强海航集团及其下属各成员企业的品牌效应,并且减少关键信息传播的成本,及时洞悉客户评价和舆论走向,以及指导舆论引导工作,加快对紧急事件的响应速度。

目前主要功能如下,包括数据爬取、数据存储、微博舆情、新闻舆情、热词统计、情感分析、舆情监测、数据接口服务、热点事件梳理:

数据爬取:每天定时计划爬取指定微博,新闻媒体最新发布信息,存储以供分析

数据存储:存储微博、新闻内容、图片等,以及中间分析结果、计算结果

微博舆情:统计分析、信息监测、信息检索

新闻舆情:统计分析、信息监测、信息检索

热词统计:高频度热词统计

情感分析:文本分析、根据文字内容定位情感倾向

舆情监测:根据指定敏感词进行信息过滤,并提供通知功能

数据接口服务:提供对外的Rest的API数据服务

热点事件梳理:提供检索,优先列出热度高的新闻、微博记录

图像识别和内容分析:(这部分正在做)

部分展示效果图:

我们的机器学习工作流,如下图:

1定义预测目标

2数据收集

收集数据的方式有很多,我们使用定向爬虫从网上爬取需要的数据。数据源包括微博、主流媒体网站、大型论坛、指定行业网站等。

3数据预处理

这里的主要工作是对上一步收集的数据进行情感标注,规则是:负面的标记0,中性及以上标记为1。我们的模型是监督训练的,所以这一步必不可少。

4构建并训练模型

不同行业的常用词汇和表述是不一样的,为了简化模型结构,同时保证准确率,我对不同行业的语料分开建模,这里以财经新闻为例,具体步骤是:

取10W条(越多越好)财经类新闻,对每条新闻进行分词,统计每个词出现的频次,并将词按频次从高到低进行排序,形成一个序数——词语的关系映射表。

构建基于词向量+CNN的网络。

在测试集上进行预测,计算得到准确率、召回率等指标。

交叉验证。保证从多个方向学习样本,避免陷入局部极小值。

5评估模型

我认为评估模型可以从以下方面考虑:

(1)精度方面:包括准确度(Accuracy)、精确度(Precision)、召回率(Recall)、ROC曲线等评价指标。

(2)性能方面:在数据量有限、任务不复杂的情况下,尽量设计浅层的模型,它们计算开销小,并且易于扩展。

6使用模型

对于训练好的模型,我们使用标准的API接口进行封装,新爬取的数据无需经过任何加工,直接批量地送入模型,就可以批量地返回分类结果。

一般认为准确率达80%以上的模型具有生产价值。我们使用微博语料、财经新闻语料、科技新闻语料训练的情感分类模型,平均准确率达到了90%以上,并且随着数据量的逐步增长,我们的模型还可以进一步优化。

答疑环节

Q1:情感的强度如何量化?

Q2:情感分析的情感是指什么?

Q3:老师用的分词工具是啥,能推荐一款比较好的吗?

Q4:咱们平台用了哪些深度学习开源工具?

杨欣伟:使用了Keras和Tensorflow。Tensorflow是时下最流行的深度学习框架,随着版本的更迭它的功能也越来越完善。但是它的API非常的低层,使用的时候往往需要编写大量代码,即便是构建一个相对简单的模型。Keras则是一个高层的库,它的后台可以在Tensorflow和Theano之间自由切换,并且,Keras代码可以和Tensorflow代码无缝衔接。

THE END
1.自然语言处理相关工具调研hownet知网情感词典HowNet(知网情感词典)是董振东先生、董强先生父子毕三十年之功标注的大型语言知识库,主要面向中文(也包括英文)的词汇与概念。 该词典主要分为中文和英文两部分,共包含如下数据: TSING TSING(中文褒贬义词典)清华大学李军基于其他学者工作的基础上所整理。该词典共包含两个文件,一个为褒义一个为贬义。其中共包含褒义词https://blog.csdn.net/weixin_37647148/article/details/105775640
2.情感语录软件哪个最好情感语录软件免费版推荐情感语录软件有哪些?情感问题是大家无论处在什么年龄段都会遇到的问题,不论是友情、爱情、亲情,总会有各方面的问题困扰着大家,很多朋友在面对这些情感问题时不知道如何去面对解决,有的会选择逃避,今天小编给大家推荐几款好用的情感语录软件,这些软件上有着丰富的情感http://www.downcc.com/k/qgylrj/
3.情感词典学术百科提供全面的“情感词典”相关文献(论文)下载,论文摘要免费查询,情感词典论文全文下载提供PDF格式文件。情感词典中文、英文词汇释义(解释),“情感词典”各类研究资料、调研报告等。https://wiki.cnki.com.cn/HotWord/1966843.htm
4.有道词典词典 翻译 笔记 中英 清除 1. 20kb 《酒吧广告》“恋人约会,寻找伴侣,请到相约情吧来!” Advertisement of bar Lovers dating, seeking lover. please come to emotion. 2. 34kb 如果觉得朋友不是那么想听你的婚外情故事,那就试着把它倾诉给纸张吧。 If you get the feeling your friends are quite https://m.youdao.com/singledict?q=%E6%83%85%E5%90%A7&dict=blng_sents&more=true
5.最全中文情感词库码农集市专业分享IT编程学习资源恰逢**你笑上传1.53MB文件格式zip情感词库语义词库情感分析中文NLP 目前最全的中文情感词典,包括以下内容: 褒贬词及其近义词 ,汉语情感词极值表, 清华大学李军中文褒贬义词典, 情感词典及其分类, 情感词汇本体, 台湾大学NTUSD简体中文情感词典, 知网Hownet情感词典。 https://www.coder100.com/index/index/content/id/3027221
6.7.4主要的情感词典资源在前面章节的叙述中,已经穿插介绍了一些公开的情感词典。这里我们整理如下,方便参考。 中文领域有如下几个情感词典(见表7.5)。 表7.5 中文公共情感词典及其词语条目数 此外,还有北京大学研发的情绪词典(Xu,et al.2010),包括喜悦情绪的词条91个,愤怒的词条112个,悲哀的词条89个,恐惧的词条103个,以及惊讶情绪的词条https://cooc.cqmu.edu.cn/course/knowledgepoint/7420.aspx
7.情感词典,emotionalthesaurus,音标,读音,翻译,英文例句,英语词典英语情感动词的“-ing分词”与-“ed分词”的理解和用法是英语学习中的一个难点,特别是区别使用“exc ited”与“exc iting”之类的分词。 更多例句>> 5) sensibility word 情感词语6) emotive verbs 感情动词 1. The article analyses metaphorical mechanism of Russian emotive verbs and physical verbs throughhttp://www.dictall.com/indu58/94/58945743502.htm
8.情感词典的翻译是:Emotionaldictionary中文翻译英文意思,翻译aINTERMEDIATE CONSIGNEE 中间承销人[translate] aThe human quality of attraction is put into a plastic product 吸引力的人的质量被放入塑料产品[translate] a我相信,爱情的结局,就是我们最终的 I believed that, love result, is we final[translate] a情感词典 Emotion dictionary[translate]http://eyu.zaixian-fanyi.com/fan_yi_8042057
9.情感词典汇总自然语言处理使用的情感词典下载自然语言处理使用的情感词典,包括知网词典、台湾大学NTUSD、清华大学李军、Bosen情感词典、否定词词典等(Emotional dictionaries used in natural language processing, including HowNet dictionary, Taiwan University NTUSD, Tsinghua University Li Jun, Bosen sentiment dictionary, negative word dictionary, etc.) https://www.dssz.com/3685745.html
10.情感情感词典释义情感的意思,拼音汉语词典情感是什么意思?汉语词典解释:情感⒈ 心情感动。【例】情感于旧物。【英】move;touch;⒉ 人受外界刺激所产生的心理反应,如:喜、怒、哀、乐等。 情感的拼音、五笔、翻译,情感的近义词、反义词。https://www.hancibao.com/ci/t820A9G
11.情感词典构建方法及其应用研究目前大部分基于语料的情感词典构建方法都非常依赖于文档级别的情感标签,它们通常将文档中每个词的情感倾向通过求和的方式来表示整个文档的情感倾向,但在自然语言中,通常只有少数有情感倾向的词对文档的整体情感倾向有影响,即大部分情况下,文档中有情感倾向的词具有稀疏性,本文提出的SSANNSLC算法利用自注意力机制充分考虑https://wap.cnki.net/lunwen-1019253777.html
12.bosonnlp情感词典是什么情感词典构建方法情感分析大多是基于情感词典对文本数据进行分析,所以情感词典好坏、是否完备充足是文本分析的关键。 目前常用的词典都是基于形容词,有 知网HowNet 大连理工大学情感本体库 但是形容词类型的词典在某些情况下不适用,比如 华为手机外壳采用金属制作,更耐摔 由于句子中没有形容词,使用形容词情感词典计算得到的情感得分为0。https://blog.51cto.com/u_16213640/9580990
13.基于情感词典的语义分析='\n':#查找这个word是否在情感词典里面 word_n=word_n+1#print('匹配'+word)level_score=query_level(j,key)#查找定位到的word前面几个单词是否是程度性词语(英文语法是这样的) score=score+level_scoreifword_n!=0:rate=score/word_nelse:rate=0score_list.append(score)rate_list.append(rate)https://www.jianshu.com/p/a6e58b360f5b
14.词典下载情感分析词库汇总语义词典人工智能情感词库个人网站:https://www.zhangjunbk.com 网上购买最全的中文情感词典,包括以下内容: 1. 褒贬词及其近义词; 2. 汉语情感词极值表; 3. 清华大学李军中文褒贬义词典; 4. 情感词典及其分类; 5. 情感词汇本体; 6. 台湾大学NTUSD简体中文情感词典; 7. 知网Hownet情感词典。 https://www.iteye.com/resource/z360901061100-10016443
15.情感的意思拼音怎么读词典晋.陆云〈与陆典书书〉:「且念亲各尔分析,情感复结,悲叹而已」唐.白居易〈庭槐〉诗:「人生有情感,遇物牵所思」 来源:-- 词典修订版 【情感】的意思 (词典简编版) 感情。内心有所感触而产生的心理反应。【造句】:长期从事园艺工作,使得他对花草树木有着一份深厚的情感。 来源:-- 辞典简编版 https://m.zcdian.com/ci/lwypbe.html
16.情感分析:基于词典的分析的方法.doc情感分析:基于词典的分析方法好主意值得扩散,激发我们创造的动力所有的数据挖掘方法和思路基本上很久之前都已经形成了,只是现代计算机的普及让这些创新的想法拥有了看似可行的技术支撑,给了他们起死回生的机会,从历史的故纸堆里摇身一变,成了高大上的现代挖掘感念。情感分析的历史也可以追溯到 1950 年,没错你真的没https://max.book118.com/html/2020/1119/7042142021003021.shtm
17.知网情感词典(HOWNET)开发实例源码下载该词典主要分为中文和英文两部分,共包含如下数据:中文正面评价词语3730个、中文负面评价词语3116个、中文正面情感词语836个、中文负面情感词语1254个;英文正面评价词语3594个、英文正面评价词语3563个、英文正面情感词语769个、英文负面情感词语1011个。 情感分析资源大全:http://blog.csdn.net/qq280929090/article/detailshttps://www.haolizi.net/example/view_49422.html
18.“情感”日语翻译“情感”日语怎么说写中文“ 情感 ”的日语翻译 词典解释 ├─查询结果 1 └─查询结果 2 情感.感情.気持ち. ■诗里抒写 shūxiě 的情感真实动人/詩の中に盛られた感情は真実味があり,人を感動させる. ■富于 fùyú 情感/感情が豊かである. ■情感脆弱 cuìruò /情にもろい. https://tran.httpcn.com/Html/ChinesetoJapanese/27/RNAZAZILPWAZPWTBKOMEIL.html
19.BosonNLP数据下载的情感词典词典来源于BosonNLP数据下载的情感词典,来源于社交媒体文本,所以词典适用于处理社交媒体的情感分析。 词典把所有常用词都打上了唯一分数。 本软件ID:10397421 文件下载 资源详情 免责申明 【好快吧下载】的资源来自网友分享,仅供学习研究,请务必在下载后24小时内给予删除,不得用于其他任何用途,否则后果自负。基于互联网https://csdn.hk8.net/detail/weixin_38665000/10397421.html
20.GitHub中文情感词典汇总(台湾大学NTUSD简体中文情感词典,清华大学李军中文褒贬义词典,知网Hownet情感词典等) - ppzhenghua/SentimentAnalysisDictionaryhttps://github.com/ppzhenghua/SentimentAnalysisDictionary
21.訴諸情感的解释和发音「欧路词典」英汉情感过盛,情感活泼 emotionlessadj. 不露情感的,没有情感的 affective disorder情感障碍 ameleia无情感 hypothymia情感减退 paramania情感倒错 parapathia情感倒错 affectivityn. 情感作用; adj. 情感性的 hyperaffective情感过强的 hyperthymergastic情感过盛的 hyperthymic情感增盛的 hypoaffective情感减弱的 hypothymichttp://dict.eudic.net/mdicts/en/%E8%A8%B4%E8%AB%B8%E6%83%85%E6%84%9F.html
22.NRC词语情绪词典和词语色彩词典Abstract 虽然情感分析近几年很热,但由于缺乏情感词典,还很少有人做关于中国古典诗歌的情感分析,本论文提出了一个基于(WPPR)的弱监督方法构建诗歌词典。 Introduction 在建立的网络中同时比较给定词语和积极和消极的情感代表词的相似度。 贡献: 提出一个基于图的构建情感词典的弱监督的不依赖于现有词典的方法。 评估https://www.pianshen.com/article/77231506983/
23.三个情感词典知网Hownet台湾大学NTUSD清华大学李军中文褒贬义目录0 2016-12-27 11:03 三个情感词典汇总\台湾大学NTUSD\ 文件89095 2013-02-08 15:32 三个情感词典汇总\台湾大学NTUSD\ntusd-negative.txt 文件29319 2013-02-08 15:32 三个情感词典汇总\台湾大学NTUSD\ntusd-positive.txt 文件81726 2006-02-10 16:31 三个情感词典汇总\台湾大学NTUSD\NTUSD_negative_simphttp://www.nz998.com/other/82048.html
24.情感意思情感解释情感 x没有作文库帐号? 作文库帐号直接登录 帐号 密码 作文库>词典> 情感 【意思解释】见“情绪”。https://www.zuowenku.net/cidian/179023.shtml