NLP专栏丨情感分析方法入门上

情感分析问题可以划分为许多个细分的领域,下面的思维导图[2]展示了情感分析任务的细分任务:

其中词级别和句子级别的分析对象分别是一个词和整个句子的情感正负向,不区分句子中具体的目标,如实体或属性,相当于忽略了五要素中的实体和属性这两个要素。词级别情感分析,即情感词典构建,研究的是如何给词赋予情感信息。句子级/文档级情感分析研究的是如何给整个句子或文档打情感标签。而目标级情感分析是考虑了具体的目标,该目标可以是实体、某个实体的属性或实体加属性的组合。具体可分为三种:Target-groundedaspectbasedsentimentanalysis(TG-ABSA),Targetnoaspectbasedsentimentanalysis(TN-ABSA),Targetaspectbasedsentimentanalysis(T-ABSA).其中TG-ABSA的分析对象是给定某一个实体的情况下该实体给定属性集合下的各个属性的情感分析;TN-ABSA的分析对象是文本中出现的实体的情感正负向;T-ABSA的分析对象是文本中出现的实体和属性组合。下表例举了不同目标的情感分析任务:

2、情感分析常用文本预处理方法

2.1中文分词技术

词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。研究表明特征粒度为词粒度远远好于字粒度,其大部分分类算法不考虑词序信息,基于字粒度的损失了过多的n-gram信息。

中文分词主要分为两类方法:基于词典的中文分词和基于统计的(HMM,CRF)中文分词。举个例子:“网商银行是蚂蚁金服微贷事业部的最重要产品”,其对应的分词结果为:网商银行/是/蚂蚁金服/微贷事业部/的/最重要/产品。

当前我们讨论的分词算法可分为两大类:基于字典、词库匹配的分词方法;基于词频度统计(HMM,CRF)的分词方法。第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,核心是首先建立统一的词典表,当需要对一个句子进行分词时,首先将句子拆分成多个部分,将每一个部分与字典一一对应,如果该词语在词典中,分词成功,否则继续拆分匹配直到成功。如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息,统计学认为分词是一个概率最大化问题,即拆分句子,基于语料库,统计相邻的字组成的词语出现的概率,相邻的词出现的次数多,就出现的概率大,按照概率值进行分词,所以一个完整的语料库很重要。

当前中文分词技术已经非常成熟,下表[3]展示了当前业界主流的分词服务支持的功能:

2.2去除停用词

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。但是,并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。

2.3文本特征提取

2.3.1Bagofwords

BoW模型最初应用于文本处理领域,用来对文档进行分类和识别。其核心思想是建立一个词典库,该词典库包含训练语料库的所有词语,每个词语对应一个唯一识别的编号,利用one-hot文本表示。文档的词向量维度与单词向量的维度相同,每个位置的值是对应位置词语在文档中出现的次数,即词袋模型(BOW)BoW模型因为其简单有效的优点而得到了广泛的应用。如下示例,给定两句简单的文档:

文档1:“我喜欢跳舞,小明也喜欢。”

文档2:“我也喜欢唱歌。”

基于以上这两个文档,便可以构造一个由文档中的关键词组成的词典:

词典={1:“我”,2:“喜欢”,3:“跳舞”,4:“小明”,5:“也”,6:“唱歌”}

这个词典一共包含6个不同的词语,利用词典的索引号,上面两个文档每一个都可以用一个6维向量表示(用整数数字0~n(n为正整数)表示某个单词在文档中出现的次数。这样,根据各个文档中关键词出现的次数,便可以将上述两个文档分别表示成向量的形式:

文档1:[1,2,1,1,1,0]

文档2:[1,1,0,0,1,1]

通过上面的例子可以看出,虽然BOW模型理解和实行起来简单,但是他有以下缺点问题:

(1)容易引起维度灾难问题,语料库太大,字典的大小为每个词的维度,高维度导致计算困难,每个文档包含的词语数少于词典的总词语数,导致文档稀疏。(2)仅仅考虑词语出现的次数,没有考虑句子词语之间的顺序信息,即语义信息未考虑。

2.3.2TF-IDF

如下示例可以清楚说明TF-IDF的计算方法:

假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。

一个计算文件频率(IDF)的方法是文件集里包含的文件总数除以测定有多少份文件出现过“母牛”一词。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是lg(10,000,000/1,000+1)=4。

最后的TF-IDF的分数为0.03*4=0.12。

2.3.3预训练模型

预训练模型的发展也反映了深度学习在NLP领域的进步。NLP领域的预训练模型大致可以分为以下两类:

基于词嵌入的预训练方法

基于语言模型的预训练方法

BERT提出后大火,也许是因为BERT的效果太好。目前绝大多数的预训练模型都是在BERT上改造而来。清华大学的王晓智和张正彦同学给出了目前的预训练模型关系图,这里引用一下,如下图所示:

总结

本篇博文主要介绍了情感分析任务的概述以及进行情感分析任务之前我们需要进行的准备工作,其中着重介绍了NLP领域最重要的预训练模型的主要里程碑。下一篇博文将着重介绍进行情感分析任务的具体方法,包括传统基于统计的方法和深度学习方法。

参考文献

PANGB,LEEL.Opinionminingandsentimentanalysis[J].FoundationsandTrendsinInformationRetrieval,2008,2(1-2):130-135.

BengioY,DucharmeR,VincentP,etal.Aneuralprobabilisticlanguagemodel.

MikolovT,ChenK,CorradoGS,etal.EfficientEstimationofWordRepresentationsinVectorSpace.

MikolovT,SutskeverI,ChenK,etal.DistributedRepresentationsofWordsandPhrasesandtheirCompositionality.

MatthewPeters,MarkNeumann,MohitIyyer,MattGardner,ChristopherClark,KentonLee,andLukeZettlemoyer.2018.DeepContextualizedWordRepresentations.

AlecRadford,KarthikNarasimhan,TimSalimans,andIlyaSutskever.2018.ImprovingLanguageUnderstandingbyGenerativePre-Training.

JacobDevlin,Ming-WeiChang,KentonLee,andKristinaToutanova.2018.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding.

THE END
1.2024年[NLP]如何进行情感分析,赶紧学起来基于nlp的情感分析这里我们不关心具体的评价对象,但是可以很清楚看出某些词对于情感倾向识别是起关键作用的。那么我们是否可以建立一个标准情感词库作为情感分析的种子词库呢?答案是肯定的。 情感倾向的种子词库建立是通过分析语料库,首先对语料库去除停用词,然后对与其中的词进行分类,分别为:正面、负面、中性。比如: https://blog.csdn.net/2401_84558498/article/details/138871156
2.情感大师揭秘:恋爱中的神奇沟通技巧!要想人不知,除非己莫为 漫漫情感在线 打开APP 北京大妈捡漏280万,买价值500万的房子,邻居一句话吓得立马退房 历史老字号 18跟贴 德军飞机瞄准法军不断射击,法军立即释放烟雾,伪装成中弹的模样 影探阿兵 1404跟贴 你是一道风景,而我既不是这风景的陪衬 三妮在北漂 170跟贴 有人看了部下五遍,这才是好https://m.163.com/v/video/VDIU13UF4.html
3.如何进行情感分析?–PingCode情感分析的核心是文本数据,因此第一步是从各种来源(如社交媒体、评论、博客等)收集数据。在收集后,需要进行预处理,包括文本清洗、标点符号和无关词汇的移除、分词以及标注情感标签(如正面、负面或中性)。 2. 选择适当的算法和模型 情感分析可以使用多种算法,从基本的文本分析方法到复杂的深度学习模型。例如,朴素贝叶https://docs.pingcode.com/ask/59822.html
4.情感测试怎么做:成功技巧超准方法与推荐一览2. 分析测试结果:按照测试结果,理解自身的情感状态。 3. 反思与调整:依据测试结果,反思本身的表现,调整与他人的交往办法。 三、情感测试怎么做才能成功 1. 选择权威的情感测试工具:权威的情感测试工具可以提供准确的测试结果帮助您更好地理解本人的情感状态。 https://www.yanggu.tv/webgov/aixuexi/460678.html
5.情感分析的基础知识介绍.pdf文档介绍:该【情感分析的基础知识介绍 】是由【青山代下】上传分享,文档一共【5】页,该文档可以免费在线阅读,需要了解更多关于【情感分析的基础知识介绍 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印https://m.taodocs.com/p-1089076342.html
6.情感分析方法与实践(EduCoder)是信息技术类实践教学平台。(EduCoder)涵盖了计算机、大数据、云计算、人工智能、软件工程、物联网等专业课程。超60000个实训案例,建立学、练、评、测一体化实验环境。https://www.educoder.net/shixuns/xmtacu23
7.nlp中情感分析的步骤51CTO博客已为您找到关于nlp中 情感分析的步骤的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及nlp中 情感分析的步骤问答内容。更多nlp中 情感分析的步骤相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/fdb75be35c7b676.html
8.张宁一课程!妖姬说情感课程!张宁一课程!妖姬说情感课程! 张宁一课程!妖姬说情感课程! 妖姬说情感课程合集!包括以下六套: 01.男性心理分析课 02.引导付出课 03.妖精魅力课 04.性感聊天课 05.眼神魅惑专题 06.人性撩汉高效脱单课https://www.meipian.cn/54sw1kyq
9.情感分析的具体过程有哪些步骤?情感分析的具体过程包括以下几个步骤: 1.预处理:使用自然语言处理(NLP)技术,从输入文本评论中去除不需要的数据 。 2.特征提取:引入与评论相关的特征和方面相关的特征的混合方法,以有效地提取特征,为每个评论构建独特的混合特征向量 。 3.情感分类:使用深度学习分类器,如长短期记忆(LSTM),进行情感分类 。 生成的文https://ienci.com/jkkp/JRQ7vnOD/
10.情感分析是如何实现的?有哪些常见的情感分析技术?情感分析是通过自然语言处理技术来识别和理解文本中的情感和情绪的过程。 其实现主要依赖于对文本中情感色彩词汇的识别与判断,以及对上下文语境的理解。 以下是一些常见的情感分析技术: 基于情感词典的方法: 这种方法利用预先构建的情感词典,其中包含大量标记了情感极性的词汇(积极、消极或中性)。 https://www.ai-indeed.com/encyclopedia/9379.html
11.景云情感分析师头条设计摘要:景云情感分析师头条设计,今日生活情感分析师头条设计教程,新片场素材小编钱安凝景云情感分析师头条设计,今日生活情感分析师头条设计教程相关内容整理,如果您对景云情感分析师头条设计,今日生活情感分析师头条设计教程感兴趣欢迎访问免费阅读。 景云情感分析师头条设计,今日生活情感分析师头条设计教程 https://edu.xinpianchang.com/article/article/603657.html
12.EQ训练教程:情感技巧与成功素质出版社:西南交通大学出版社 ISBN:7810571230 出版年:1997 作者:王化桥 学科:生物科学 资源类型:图书 细分类型:中文文献 收藏单位 馆藏地 在架状态 索书号 武汉文献中心 流通部 在架上 59.805/W1984浏览量 问图书管理员 馆际互借 点赞 收藏 访问借阅管理系统 分享 https://www.las.ac.cn/front/book/detail?id=0a40bdec43722ad6e12f49a4b75fa9b9
13.曾奇峰精神分析初级教程50讲(29)我们的问题是在早年的有问题的关系中形成的,如果要解决的话,也必须在成年之后的人际关系中解决。这个人际关系有两种,一种是自然而然的,比如说在生活和工作中间接触到一些人,然后我们被改变。还有一种是刻意制造的人际关系,比如去看精神分析师。都非常重要。 https://www.jianshu.com/p/c2b8d1130de4