本发明涉及信息技术领域,特别涉及一种构建情感词典的方法及装置。
背景技术:
目前,构建情感词典的方法为:专业标注人员对从社交应用中获取到的海量语料进行筛选,选取情感特征词,为情感特征词标注相应的分类情感标签,得到包括情感特征词及对应分类情感标签的情感词典。
然而,随着网络语言的不断发展,各种新词语层出不穷,加上各种网络符号也常被用来表达用户情感,单纯依赖专业标注人员很难全面地、准确地对社交应用中的情感特征词进行标注,使得构建情感词典准确性较低。
技术实现要素:
为了解决现有技术的问题,本发明实施例提供了一种构建情感词典的方法及装置。所述技术方案如下:
一方面,提供了一种构建情感词典的方法,所述方法包括:
获取多个待识别的建模语料;
从每个待识别的建模语料中,获取至少一个情感特征词;
对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;
根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;
如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中。
可选地,所述从每个待识别的建模语料中,获取至少一个情感特征词,包括:
采用指定分词算法将每个待识别的建模语料切分为多个语素片;
对所述多个语素片进行过滤,得到至少一个情感特征词。
可选地,所述对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,包括:
将所述情感特征词及分类情感标签列表发送至所述发表者所在的移动终端,所述分类情感标签列表中包括多个分类情感标签;
接收所述发表者所在移动终端发送的第一标注结果,所述第一标注结果为所述发表者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;
将所述情感特征词及所述分类情感标签列表发送至多个接收者所在的移动终端;
接收每个接收者所在的移动终端发送的第二标注结果,所述第二标注结果为所述接收者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;
将所述第一标注结果及多个第二标注结果作为所述至少两个标注结果。
可选地,所述根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件,包括:
对所述情感特征词的至少两个标注结果进行统计,得到对所述情感特征词的总标记数;
判断所述总标记数是否大于第一阈值;
如果所述总标记数大于所述第一阈值,则根据每个标注结果对应的分类情感标签,将所述至少两个标注结果划分为多种分类结果;
获取每种分类结果在所述总标记数中所占的比值;
从每种分类结果在对所述总标记数中所占的比值中,获取最大比值;
判断所述最大比值是否大于第二阈值;
如果所述最大比值大于所述第二阈值,则确定所述情感特征词满足预设条件。
可选地,所述如果所述情感特征词满足所述预设条件,将所述情感特征词加入到情感词典中,包括:
将所述情感特征词及所述最大比值对应的分类情感标签加入到情感词典中。
可选地,所述分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;
其中,所述好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;所述怒标签包括愤怒子标签;所述哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;所述惧标签包括慌子标签、恐惧子标签、羞子标签;所述恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;所述惊标签包括惊奇子标签。
另一方面,提供了一种构建情感词典的装置,所述装置包括:
第一获取模块,用于获取多个待识别的建模语料;
第二获取模块,用于从每个待识别的建模语料中,获取至少一个情感特征词;
第三获取模块,用于对于任一情感特征词,获取对所述情感特征词的至少两个标注结果,所述至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;
判断模块,用于根据对所述情感特征词的至少两个标注结果,判断所述情感特征词是否满足预设条件;
加入模块,用于当所述情感特征词满足所述预设条件时,将所述情感特征词加入到情感词典中。
可选地,所述第二获取模块,用于采用指定分词算法将每个待识别的建模语料切分为多个语素片;对所述多个语素片进行过滤,得到至少一个情感特征词。
可选地,所述第三获取模块,用于将所述情感特征词及分类情感标签列表发送至所述发表者所在的移动终端,所述分类情感标签列表中包括多个分类情感标签;接收所述发表者所在移动终端发送的第一标注结果,所述第一标注结果为所述发表者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感标签;将所述情感特征词及所述分类情感标签列表发送至多个接收者所在的移动终端;接收每个接收者所在的移动终端发送的第二标注结果,所述第二标注结果为所述接收者从所述分类情感标签列表中,为所述情感特征词所选取的分类情感词标签;将所述第一标注结果及多个第二标注结果作为所述至少两个标注结果。
可选地,所述判断模块,用于对所述情感特征词的至少两个标注结果进行统计,得到对所述情感特征词的总标记数;判断所述总标记数是否大于第一阈值;当所述总标记数大于所述第一阈值时,根据每个标注结果对应的分类情感标签,将所述至少两个标注结果划分为多种分类结果;
获取每种分类结果在所述总标记数中所占的比值;从每种分类结果在所述总标记数中所占的比值中,获取最大比值;判断所述最大比值是否大于第二阈值;当所述最大比值大于所述第二阈值时,确定所述情感特征词满足预设条件。
可选地,所述加入模块,用于将所述情感特征词及所述最大比值对应的分类情感标签加入到情感词典中。
本发明实施例提供的技术方案带来的有益效果是:
不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种构建情感词典的方法流程图;
图2是本发明另一个实施例提供的一种构建情感词典的方法流程图;
图3是本发明另一个实施例提供的一种社交应用签名档的设置界面的示意图;
图4是本发明另一个实施例提供的一种构建情感词典的装置结构示意图;
图5是本发明另一个实施例提供的一种用于构建情感词典的装置的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
101、待识别的建模语料。
102、从每个待识别的建模语料中,获取至少一个情感特征词。
103、对于任一情感特征词,获取对情感特征词的至少两个标注结果,该至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签。
104、根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件。
105、如果情感特征词满足预设条件,将情感特征词加入到情感词典中。
本发明实施例提供的方法,不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。
在本发明的另一个实施例中,从每个待识别的建模语料中,获取至少一个情感特征词,包括:
对多个语素片进行过滤,得到至少一个情感特征词。
在本发明的另一个实施例中,对于任一情感特征词,获取对情感特征词的至少两个标注结果,包括:
将情感特征词及分类情感标签列表发送至发表者所在的移动终端,分类情感标签列表中包括多个分类情感标签;
接收发表者所在移动终端发送的第一标注结果,第一标注结果为发表者从分类情感标签列表中,为情感特征词所选取的分类情感标签;
将情感特征词及分类情感标签列表发送至多个接收者所在的移动终端;
接收每个接收者所在的移动终端发送的第二标注结果,第二标注结果为接收者从分类情感标签列表中,为情感特征词所选取的分类情感标签;
将第一标注结果及多个第二标注结果作为至少两个标注结果。
在本发明的另一个实施例中,根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件,包括:
对情感特征词的至少两个标注结果进行统计,得到对情感特征词的总标记数;
判断总标记数是否大于第一阈值;
如果总标记数大于第一阈值,则根据每个标注结果对应的分类情感标签,将至少两个标注结果划分为多种分类结果;
获取每种分类结果在总标记数中所占的比值;
从每种分类结果在总标记数中所占的比值中,获取最大比值;
判断最大比值是否大于第二阈值;
如果最大比值大于第二阈值,则确定情感特征词满足预设条件。
在本发明的另一个实施例中,如果情感特征词满足预设条件,将情感特征词加入到情感词典中,包括:
将情感特征词及最大比值对应的分类情感标签加入到情感词典中。
在本发明的另一个实施例中,分类情感标签列表中包括的分类情感标签为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签,且每个分类情感标签中包括多个子标签;
其中,好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签;怒标签包括愤怒子标签;哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签;惧标签包括慌子标签、恐惧子标签、羞子标签;恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签;惊标签包括惊奇子标签。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本发明实施例提供了一种构建情感词典的方法,参见图2,本发明实施例提供的方法流程包括:
201、服务器获取多个待识别的建模语料。
在自然语言处理领域,语料为各个长度不同的中文文本的统称。实际上,语料可以为一个段落、一句话,甚至是一个词。在对大量语料进行研究时发现,语料中包含的情感特征词具有相似的特征,基于这些情感特征词构建的情感词典,是情感分类研究中的基础数据,情感词典的准确性、覆盖率在很大程度上决定了情感分类效果。
本实施例中,服务器在获取待识别的建模语料时,可采用随机选取的方式,从社交应用中获取预设数量的签名档,并将获取到的签名档作为建模语料。其中,预设数量可以为200个、300个、500个等,本发明实施例对此不作限定。当然,为了保证识别结果的准确性,在从社交应用中获取建模语料时,所获取到的建模语料的数量越多越好。
202、从每个待识别的建模语料中,服务器获取至少一个情感特征词。
由于本实施例中获取建模语料的目的,是为了对建模语料中包含的情感特征词进行标注,以根据标注结果构建情感词典,而本实施例中随机获取到的每个建模语料中不仅包含着情感特征词,而且还包含着其他类型的词。为了减少对建模语料进行处理时的计算量,提高标注速度,服务器还将从每个待识别的建模语料中,获取至少一个情感特征词。具体获取过程如下:
首先,服务器采用指定分词算法将每个待识别的建模语料切分为多个语素片。
其中,指定分词算法可以为ICTACLAS(InstituteofComputingTechnologyChineseLexicalAnalysisSystem,汉语语法分词系统)算法、最大正向匹配算法等。本实施例以采用ICTACLAS算法为例,对每个待识别的建模语料进行分词。其中,ICTACLAS算法具有中文分词、词性标注、命名实体识别、新词识别、支持繁体中文、支持GBK、UTF-8、UTF-7、UNICODE等多种编码格式的功能,可将中文语料切分为字、词和短语。由于中文语料是以连续的字符串形式出现的,词与词之间没有间隔,因此,当建模语料为中文语料时,服务器还需要进行特别的处理。具体处理过程如下:
通过采用上述分词处理方式,服务器将每个待识别的建模语料切分为多个语素片。
其次,服务器对多个语素片进行过滤,得到至少一个情感特征词。
通常所划分的语素片并不全部都有意义,因而无需将多个语素片全部作为情感特征词,为此,服务器可对多个语素片进行过滤,将多个语素片中的停用词、单字词、以及情感词典中已有的情感特征词过滤掉。其中,停用词为在信息检索中,为节省存储空间和提高搜索效率,自动过滤掉的字词。停用词一般为没有实质意义的功能词,如一个、这个、这些等等。
需要说明的是,上述为从每个待识别的建模语料中,获取至少一个情感特征词的一种方式,为了弥补采用指定分词算法产生的错误,本实施例中建模语料的发表者还可以自主地从建模语料中指定情感特征词。
203、对于任一情感特征词,服务器获取对情感特征词的至少两个标注结果,该至少两个标注结果由发表者及多个接收者标注。
为了便于对情感特征词进行标注,本实施例提供的方法还将预先构建一个初始情感词典,该初始情感词典包括分类情感标签列表及对应的情感特征词。其中,分类情感标签列表中包括多个分类情感标签,分别为乐标签、好标签、怒标签、哀标签、惧标签、恶标签、惊标签。为了按照情感强度和复杂度对每个情感标签进行区别及细化,每个分类情感标签中包括多个子标签。其中,好标签包括尊敬子标签、赞扬子标签、相信子标签、喜好子标签、祝愿子标签等;怒标签包括愤怒子标签等;哀标签包括悲伤子标签、失望子标签、疚子标签、思子标签等;惧标签包括慌子标签、恐惧子标签、羞子标签等;恶标签包括烦闷子标签、憎恶子标签、贬责子标签、妒忌子标签、怀疑子标签等;惊标签包括惊奇子标签等。为了更为直观地展示初始情感词典中的内容,下面以表1为例进行说明。
表1
表2
对于任一情感特征词,服务器在获取对情感特征词的至少两个标注结果时,可采用如下步骤(1)~(5)。
(1)、服务器将情感特征词及分类情感标签列表发送至发表者所在的移动终端。
通常情感特征词的发表者最为清楚情感特征词所要表达的情感,为了获取到情感特征词准确的标注结果,服务器可将情感特征词及初始情感词典中的情感标签列表发送至发表者所在的移动终端。
(2)、服务器接收发表者所在移动终端发送的第一标注结果,该第一标注结果为发表者从分类情感标签列表中,为情感特征词所选取的分类情感标签。
当接收到服务器发送的情感特征词及情感标签列表,发表者从分类情感标签列表中选取能够表达自己心情的情感特征词,得到第一标注结果。对于用户自定义选取的情感特征词,用户也需为该情感特征词选取一个分类情感标签。
当为每个情感特征词选取一个分类情感标签之后,发表者所在的移动终端将第一标注结果发送至服务器,由服务器进行存储。
(3)、服务器将情感特征词及分类情感标签列表发送至多个接收者所在的移动终端。
在发表者签名档中的信息发布之后,具有接收权限的接收者在好友列表中该发表者ID后显示签名档中的信息,当接收者查看签名档中的信息详情时,服务器将情感特征词及分类情感标签列表发送至每个接收者所在的移动终端。
(4)、服务器接收每个接收者所在的移动终端发送的第二标注结果,该第二标注结果为接收者从分类情感标签列表中,为情感特征词所选取的分类情感标签。
当每个接收者所在的移动终端接收到情感特征词及分类情感标签列表,每个接收者根据自己对情感特征词的理解,从分类情感标签列表中为该情感特征词选取一个分类情感标签,得到第二标注结果,并将第二标注结果发送至服务器。
(5)、服务器将第一标注结果及多个第二标注结果作为至少两个标注结果。
204、根据对情感特征词的至少两个标注结果,服务器判断情感特征词是否满足预设条件,如果是,执行步骤205,如果否,执行步骤206。
当发表者对情感特征词进行自标注和多个接收者对情感特征词进行互标注之后,情感特征词被服务器放入到候选词库,候选词库中包括情感特征词、对情感特征词的至少两种标注结果。对于候选词库中的情感特征词,需要定时轮询,以判断是否满足预设条件,进而根据判断结果采用不同的方式进行处理。目前,在判断情感特征词是否满足预设条件时,一般采用最大投票法,这是基于大多数用户对情感特征词的判断比较一致的情况下做出的最优选择。用户自标注和互标注一个情感特征词的分类情感标签,相当于对某个分类情感标签进行投票,本发明正是基于对分类情感标签的投票总数及每个分类情感标签的得票数进行判断的。
具体地,服务器根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件时,可先对情感特征词的至少两个标注结果进行统计,得到对情感特征词的总标记数,进而判断该总标记数是否大于第一阈值,如果该总标记数大于第一阈值,则根据每个标注结果对应的分类情感标签,将至少两个标注结果划分为多种分类结果。之后,服务器获取每种分类结果在总标记数中所占的比值,并从每种分类结果在总标记数中所占的比值中,获取最大比值,进而判断该最大比值是否大于第二阈值,如果该最大比值大于第二阈值,则服务器可确定情感特征词满足预设条件。其中,第一阈值为参与标注的用户数的阈值,可为100、200、500等。第二阈值为分类情感标签占投票总数的比例阈值,该第二阈值可以为60%、70%、80%等,本实施例不对第二阈值作具体的限定。对于上述判断过程,可采用如下算法进行计算:
设定情感特征词对应的分类情感标签即分类结果为i=1、2、…j,每个分类结果的得票数分别为M1、M2、….Mj,对情感特征词的总标记数为N,其中,则当N>=X时,每个分类结果在总标记数中所占的比值分别为(M1、M2、….Mj)/N,如果Max(M1、M2、….Mj)/N>Y,则确定情感特征词满足预设条件。其中,X为第一阈值,Y为第二阈值。
205、服务器将该情感特征词加入到情感词典中。
当判断出情感特征词满足预设条件,服务器将情感特征词及情感特征词的最大比值对应的分类情感标签加入到情感词典中。
206、服务器忽略该情感特征词。
当判断出情感特征词不满足预设条件,服务器不会将该情感特征词加入到情感词典中。
参见图4,本发明实施例提供了一种构建情感词典的装置,该装置包括:
第一获取模块401,用于获取多个待识别的建模语料;
第二获取模块402,用于从每个待识别的建模语料中,获取至少一个情感特征词;
第三获取模块403,用于对于任一情感特征词,获取对情感特征词的至少两个标注结果,至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;
判断模块404,用于根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件;
加入模块405,用于当情感特征词满足预设条件时,将情感特征词加入到情感词典中。
在本发明的另一个实施例中,第二获取模块402,用于采用指定分词算法将每个待识别的建模语料切分为多个语素片;对多个语素片进行过滤,得到至少一个情感特征词。
在本发明的另一个实施例中,第三获取模块403,用于将情感特征词及分类情感标签列表发送至发表者所在的移动终端,分类情感标签列表中包括多个分类情感标签;接收发表者所在移动终端发送的第一标注结果,第一标注结果为发表者从分类情感标签列表中,为情感特征词所选取的分类情感标签;将情感特征词及分类情感标签列表发送至多个接收者所在的移动终端;接收每个接收者所在的移动终端发送的第二标注结果,第二标注结果为接收者从分类情感标签列表中,为情感特征词所选取的分类情感标签;将第一标注结果及多个第二标注结果作为至少两个标注结果。
在本发明的另一个实施例中,判断模块404,用于对情感特征词的至少两个标注结果进行统计,得到对情感特征词的总标记数;判断总标记数是否大于第一阈值;当总标记数大于第一阈值时,根据每个标注结果对应的分类情感标签,将至少两个标注结果划分为多种分类结果;获取每种分类结果在总标记数中所占的比值;从每种分类结果在总标记数中所占的比值中,获取最大比值;判断最大比值是否大于第二阈值;当最大比值大于第二阈值时,确定情感特征词满足预设条件。
在本发明的另一个实施例中,加入模块405,用于将情感特征词及最大比值对应的分类情感标签加入到情感词典中。
本发明实施例提供的装置,不依赖专业标注人员,基于发表者及多接收者对情感特征词进行标注,解决了情感特征词标注不全面、不准确的问题,提高了所构建的情感词典的准确性。
图5是根据一示例性实施例示出的一种用于构建情感词典的装置500的框图。例如,装置500可以被提供为一构建情感词典的服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述的构建情感词典的方法,该方法包括:
对于任一情感特征词,获取对情感特征词的至少两个标注结果,至少两个标注结果由发表者及多个接收者标注,每个标注结果对应一个分类情感标签;
根据对情感特征词的至少两个标注结果,判断情感特征词是否满足预设条件;
如果情感特征词满足预设条件,将情感特征词加入到情感词典中。
从每种分类结果总标记数中所占的比值中,获取最大比值;
服务器500还可以包括一个电源组件526被配置为执行服务器500的电源管理,一个有线或无线网络接口550被配置为将服务器500连接到网络,和一个输入输出(I/O)接口558。服务器500可以操作基于存储在存储器532的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
需要说明的是:上述实施例提供的构建情感词典的装置在构建情感词典时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将构建情感词典的装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的构建情感词典的装置与构建情感词典的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。