情感分析是一个自然语言处理(NLP)的分支,它使用机器学习来分析和分类文本数据的情感基调。基本模型主要专注于积极、消极和中立的分类,但也可能包含发言者的潜在情感(愉悦、生气、侮辱等)以及购买意图。
上下文会增加情感分析的复杂性。例如,感叹句“没什么!”取决于发言者对产品是否喜欢所做出的评价,其含义可能截然不同。为了理解“我喜欢它”这个短语,机器必须能够理清上下文,并理解“它”指的是什么。讽刺和挖苦也具有挑战性,因为发言者可能会说一些积极的内容,但其表达的是相反的意思。
情感分析有多种类型。基于层面的情感分析将深入一个层次,以确定哪些特定特征或层面正在产生积极、中立或消极的情感。企业可以使用这种见解来找出产品中的缺点,或反之,找出产品中产生意外热情的特征。情感分析是一种变体,可试图确定演讲者围绕主题的情感强度。意图分析决定采取行动的可能性。
企业可以使用来自情感分析的见解来改进其产品、调优营销消息、纠正误解并确定积极的影响因素。
手动分析客户或潜在客户所生成的大量文本非常耗时。社交媒体、电子邮件、支持票证、聊天、产品评价和推荐的情感分析已成为几乎所有垂直行业中的重要资源。它非常有助于帮助企业获取见解、了解客户、预测和增强客户体验、定制营销活动,以及帮助决策制定。
情感分析的示例用例包括以下内容:
特征工程是将原始数据转换为机器学习算法输入的过程。为了在机器学习算法中应用该过程,必须将特征输入到特征向量中,而特征向量是代表每个特征值的数字向量。情感分析需要将文本数据输入到词向量中,这些词向量是代表每个单词值的数字向量。可以使用计数技术(如BagofWords(BoW)、bag-of-ngrams或TermFrequency/InverseDocumentFrequency(TF-IDF))将输入文本编码为词向量。
将输入文本转换为词向量后,分类机器学习算法可用于情感分类。分类是一系列监督式机器学习算法,基于已标记的数据(例如标记为积极或消极的文本)来识别物品所属的类别(例如文本是消极还是积极)。