原文:MiningTextDataChapter13:AsurveyofopinionminingandsentimentanalysisBingLiu,LeiZhang[2012]
摘要:情感分析/意见挖掘可以自动从大量数据中得到人们的看法,同时消解个体的偏向(bias),所以很必要。
第一,什么是opinion
一个entity(e),例如手机,或者某个牌子的手机,有许多component(摄像头,屏幕),和一些sub-component(感光元件等)。我们把这个entity看作一个树,每个node就是一个细节。对每一个(sub)component,可能会有几个attribute,比如摄像头清晰度,摄像头大小等等。这样一棵枝枝桠桠的树,就是opiniontarget,供人评价的对象。
[zm666,想问题就是要全面,我认为这个defination是整篇最重要的部分了,研究一个sentiment,要考虑到发起人和评价对象,才算一个完整的研究。因为平时做起来粗糙,场景单一,忽视了这个全面的定义。]
两个其他的问题:主观性(subjectivity)与情感(emotion)。
一个橘子很大,是个客观评价。
一个橘子很漂亮,是主观感受。
subjectivityclassification就是用来区分一个句子是主观还是客观的。主观句子中一般有评价,但是客观句比如:这手机不耐摔,也暗含了评价。评价句不一定是主观句,但是有很大交集。
emotion:joy,anger,fear等等。这些emotion也有时表达了人们对事情的评价:买了这个手机真开心。这种句子被叫做rationalevaluationsentences.就是感性评价句。
第二,aspect-basedopinionsummary
从每个方面来评价一个entity,最后给个总结。这部分不感兴趣。大概就是综合大家的评价生成一个评价,文本的评价可能会失去一些数量信息,不利于分析,扇形图之类的可以给读者一个比较便于analyse的结果。
把整个文本看作一个整体,以获得对整个entity的评价。
监督学习:可以看作一个三分类(pos,neg,neutral)问题,一般review一般都会有用户自己的评分,一到五星,可以用这个做label来训练。目前的许多方法都可以直接用在这里:unigram的朴素贝叶斯和SVM都能表现不错。
除了用词的occurence,也可用其他特征,例如词频/词性[形容词更重要]/意见词或短语/否定词/句法依赖。基于这些特征,可以改进监督学习模型。
无监督学习:无监督学习一般就用意见词来判断
1.抽取形容词短语
2.计算在所有文档内这样的短语与excellent/poor的PMI,也就是共同出现的频率
3.统计这个文档内所有短语的平均SO(情感倾向)
三:句子主观性判断和情感分析
两个任务:
1.判断句子主观性,从而过滤掉不表达观点的句子
2.抽取句子中的aspect并分析so
一般认为一个句子来自同一个opinionholder
[zm这部分主要在讲一些细节的问题,比如有多个从句的句子处理起来如何如何难,需要做短语级的分析]
根据上面的一些研究,我们发现关键词是情感分类中最重要的任务,扩展关键词是一项很重要的任务,有以下几种方法。
1.根据词典扩充。种子+用wordnet/hownet之类的词典寻找同义词和反义词
缺点:太general,可能不适应具体文本。
2.根据文本库扩充。在文本库中通过AND/OR/BUT等一些连接词来扩充辞典。(CRF可以用在这里)
缺点:效率低
两个分解任务:
1.抽取Aspect
2.情感分类
5.1首先,情感分类:
用lexicon-based方法来解决这个问题
1.用pos/neg标记opinion词
2.解决shifter(not/no)
3.解决but从句
4.计算一个句子中每个aspect的oo(opinionorientation)
5.2OpinionRule()
opinionrule就是表示一个opinion是正还是负
1.opinionword可以直接确定是正还是负
2.这个结果是不是用户预期的结果同样可以表示正负的评价
3.数量的高低多少同样可以表达看法的正负,例:电视太小了
4.数量的增加减少也可以,例:吃了这个我头疼减轻了
5.与正常/期待的不太一样,例:这个药让我血压变低了
6.产生/消耗资源,例:这个太费水了
5.3Aspect抽取
这个章节介绍了一些无监督的特征抽取方式。第一种方法:
2.通过分析aspect和opinion的关系找到不常见的aspect:通过人们的评价,来找到aspect
CRF,HMM也可以被用在这里。LDA等TOPICmodeling的方法也可以用在这里[zm在中文短文本上做了实验,效果不怎么样]
5.4同时做意见词扩充与aspect抽取
通过探索句法特征来同时处理以上两项任务,主要分为以下四个分任务
1.用opinionword抽取aspect
2.用已得aspect抽取更多aspect
3.用额外获得的aspect抽取opinionword
4.用已有的所有opinionword重新扩展opinionword
好玩,主要是用dependencygrammar来解决问题
[zm以下不太感兴趣,今天不看了]
6.挖掘比较观点
7.其他问题(entity/holder/extraction抽取/grouping)
8.垃圾观点检测
GoodRepresentationforAcademicWriting:
Thetaskistechnicallychallengingandpracticallyveryuseful.
Proliferation[增殖]ofdiversesites.
Deciphertheopinionatedtext
Researchhasbeendoneinacademia[学术界]
Aunifiedframework
Twotermsareusedinterchangeably.
Quintuple[五部分的]
Opinion,Alligation[陈述],Desire,Belief,Suspicious,Speculation[推断]
Opinionquintuplesdefinedaboveprovideanexcellentsourceofinformationforgeneratingbothqualitativeandquantitativesummaries.