关于wordnet的介绍很多,中英文都有,我这里主要是参考了别人的。自己组织了一下。
1.简介
1.1关于词典
Wordnet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的大型的英语词典,WordNet的开发有两个目的:
1.它既是一个字典,又是一个辞典,它比单纯的辞典或词典都更加易于使用。
2.支持自动的文本分析以及人工智能应用。
在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,这是传统词典所不具有的,WordNet最具特色之处是根据词义而不是词形来组织词汇信息,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。(一个多义词将出现在它的每个意思的同义词集合中)。
1.2.1一些心理学的假设
尽管名词层级的一般结构是由上下位关系(hyponymy/hypernymy)产生的,但这些知识在人脑的词库中如何表示并不清楚。我们不妨假设概念的细节是由区别特征来刻画的。例如,知更鸟(robin)是一种鸟,有颜色,会唱歌,等等;显然,我们不仅要在robin和bird之间建立起上下位关系,还需要将“颜色”(color),歌唱(singing),飞(flying)等特征跟robin关联起来。此外,robin还需要从bird那里继承一些特征,比如恒温脊椎动物(warm-bloodedvertebrate),有喙(beak),翅膀(wings),羽毛(feathers),孵蛋(layeggs),等等。为了达到上述目的,至少要考虑以下三方面的特征:
(1)属性(attributes):是知更鸟属(redbreasted),恒温脊椎动物,
(2)部件(Parts):beak,feathers,wings
(3)功能(functions):sings,flies,layseggs
属性的值由形容词表达。例如,“size”和“color”是“robin”(知更鸟)的两个属性。而知更鸟的size则由形容词“small”(小)来描述;color则由形容词“red”来描述。名词由此可以看作是属性词的论元。例如SIZE(robin)=small,COLOR(robin)=red
在WordNet中,{robin}和{red}之间不直接发生关联,而是通过{color}跟{red}之间发生关联。
friendliness(友好性)是dog的一个属性,因此我们可以说“adogcanbefriendlyorunfriendly”,但“stingydog”或“shallowdog”就只能解释为比喻用法。因为generosity和depth都不是dog的正常属性。
1.2.2WordNet中的语义关系
WordNet中包含各种关系。
1)反义关系
反义关系(antonymy)是很难定义的一种语义关系。一个词x的反义词有时并不是非x。例如,“富有(rich)”和“贫穷(poor)”是一对反义词,但是要说某个人不富有并不意味着一定穷;许多人认为自己既不富也不穷。反义词似乎是一种简单的对称关系,实际上却是相当复杂的。反义词是一种词形间的语义关系,而不是词义间的语义关系。例如,词义{升高,上升}和{下落,下降}可能在概念上是相对的,其中[升高/下落]是反义词,[上升/下降]也是反义词。但是,如果说“升高”与“下降”与“上升”于“下落”是否是反义词,就要考虑一下了。所以有必要区分词形之间的语义关系和词义之间的语义关系。反义关系为WordNet中的形容词和副词提供了一种中心组织原则。
2)同义词
WordNet的组织方式是提供语义关系的指针,而不是罗列特征。WordNet中的名词由同义词集合(synset)组成,synset之间有指针指示它们的语义关系(上下位关系)。在WordNet中,特征信息并不是以明确的显性形式来定义上下位关系或名词的层级关系。
3)上下位关系
与同义词和反义词都是词形之间的词汇关系不同,上位关系(hypernymy)/下位关系(hyponymy)是词义之间的语义关系。例如:{樟树}是{树}的下位词,{树}又是{植物}的上位词。下位/上位关系也称为从属/上属关系,子集/超集关系,或ISA关系。如果以英语为母语接受以“Anxisa(kindof)y”框架构造的句子,则同义词集合{x1,x2,…}表示的概念与同义词集合{y1,y2,…}表达的概念是下位概念和上位概念的关系。上下位关系具有某种限制,而且是一种不对称的关系。通常情况下,一个同义词集合如果有与之是下位概念和上位概念的关系的同义词集合,则也只有惟一的一个。即便是不惟一,同为上位概念的关系的同义词集合之间差别也是非常小的。这就产生了一种层次语义结构,其中下位词位于其上属关系的下层。这样的层次表达方法,Touretzky称作继承体系,它意味着下位词继承了上位词更一般化概念的所有性质,并且至少增加一种属性,以区别它与它的上位词以及该上位词的其他下位词。例如,“枫树”继承了其上位词“树”的属性,但却以其坚硬的木质、叶片的形状等特性区别于其他的树。这种方法为WordNet中的名词提供了一种核心的组织原则。
句子“Apistolismoredangerousthanarifle”(手-枪比步-枪更危险)显示的意义是可以理解的。而“Apistolismoredangerousthanagun”(手-枪比-枪更危险)和“Agunismoredangerousthanapistol”就都不好理解(BeverandRosenbaum1970)。很显然,语言学上,比较句中两个比较项不能是上下位关系的两个词。而这条句法规则要发挥作用,必须基于给定的名词上下位关系知识基础上。
再看一个例子,“Igavehimagoodnovel,butthebookboredhim”容易理解,但“Igavehimagoodnovel,butthecatsupboredhim”就让人费解。因为词汇知识告诉我们,novel是book(有上下位关系),但不是catsup(番茄酱)。显然,要得出上述判断,也必须依赖名词之间的上下位关系。
再一个例子,一些动词的搭配选择限制也表明名词上下位关系的重要性。比如动词“drink”的直接宾语可以是beverage(饮料)的任何一个下位词。这也暗示有关名词的上下位关系的知识应该以一种人们能够快速访问和搜索到的方式存贮。
4)部分关系
同义关系,反义关系和上下位关系都是比较容易理解的语义关系。另一种语义关系称为“部分-整体关系”(简记为HASA),语言学家称之为部分词(meronym)/整体词(holonym)的关系。如果以英语为母语接受以“Ayisanx”或“Anxisapartofy”框架构造的句子,则同义词集合{x1,x2,…}表示的概念与同义词集合{y1,y2,…}表达的概念是部分概念和整体概念的关系。部分关系也具有某种限制,且是不对称的关系,可以构造一种部分等级关系。
5)继承/蕴涵(entailment)
有些动词之间存在蕴涵关系,如snore(打鼾)蕴涵了sleep(睡觉)。“Heissnoring”蕴涵了“Heissleeping”。动词之间的蕴涵关系很像名词中的meronymy(整体部分关系)。
最后附上一张名词语义网络的示例
6)致使语义关系(Thecauserelation)
这种关系连带两个动词概念,一个是因(如give),另一个是果(如have)。英语中词汇化的致使动词对的例子如:show-see(展现-看见)和fell-fall(击倒-倒)等。
1.2.2其他一些概念
下面,我们介绍WordNet名词体系中一些重要概念。
(1)独立起始概念(UniqueBeginner)
如果有一同义词集合(即概念)没有上位同义词集合(即上位概念),则称之为独立起始概念。在WordNet名词体系中,共有25个独立起始概念。其他名词通过上位/下位关系与这25个独立起始概念构成25个独立的层次结构。也就是说,标识着某个起始概念特点的属性将它的所有下位概念所继承,而这个起始概念就可以看作为是该语义领域内的所有概念(同义词集合)的一个原始语义元素。如表1所示。
表2WordNet名词体系的25个独立起始概念
(2)词典编撰ID(LexicographerID)
每一个同义词集合(synonymyset)均有惟一的一个编号,这个编号就称为词典编撰ID(LexicographerID)。
(3)概念链(ConceptChain)
概念链一般的定义是这样一种结构::=(C,<),其中C代表的是概念集合,<代表概念间的下位/上位关系。也就是说概念链是由C概念集合中的概念通过概念间的上位/下位关系连接而成。
(4)WordNet名词体系中的概念链(ConceptChain)
在WordNet名词体系中,我们定义概念链(ConceptChain)如下:
L:=((C,<) 图1展示的就是一个概念链的示意范例。小三角形代表的是词“football”。每一个小圆圈都代表WordNet中的一个同义词集合(也就是概念)。小圆圈旁边的注释就是该同义词集合的内容。注释中的数字是该同义词集合的词典编撰ID(LexicographerID)。这个示意范例表达的是:词“football”有两个义项,即它在两个同义词集合中出现,也就是对应图中的两个小圆圈。小圆圈之间用带箭头的线连接,表示的是小圆圈所代表的概念通过下位/上位关系联系起来,从而构成概念链。概念链的首端对应的就是WordNet中的独立起始概念。比如:概念链ch1可以表示为:(3255461)<(2681909)<(3289024)<(3174243)<(3443493)<(19244)<(2645)<(16236)<(1740)。其中(3255461)作为概念链的末端代表的是词“football”的一个义项,而(1740)是WordNet中的独立起始概念,成为概念链的首端。概念“gameequipment”(3289024)是概念“ball”(2681909)的上层概念,表达的语义更抽象。 1.3Wordnet的不足 1.WordNet并不把词语分解成更小的有意义的单位(这是义素分析法的方法);WordNet也不包含比词更大的组织单位,如脚本、框架之类的单位(这是框架语义学的方法); 3.WordNet中缺少关于词语的句法信息; 4.WordNet中缺少不同词类词语间的关系(scholar–teacher-/-teach); 5.WordNet中没有“IS-NOT-A-KIND-OF”这样的关系; 6.WordNet中没有区分“IS-A-KIND-OF”和“IS-USED-AS-A-KIND-OF”两种关系,比如,“Athrushisabird”是前一种关系,而“Anadornmentisadecoration”则是后一种关系。更典型的例子也许是“Chickenisakindofbird”和“Chickenisakindoffood”。