开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇同义词词典,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
一、引言
忌妒(动)对才能、名誉、地位或境遇等比自己好的人心怀怨恨。
妒忌(动)忌妒。
上述等义同素异序词“忌妒—妒忌”采用了一主一从的释义方式,《现汉》中如“离别—别离”、“并吞—吞并”、“巡查—查巡”等都运用了这种释义方式。而对于同中有异的近义同素异序词,《现汉》则采用了主从与平列混合释义模式分别处理。例如:
蔬菜(名)可以做菜吃的草本植物,如白菜、菜花、萝卜、黄瓜、洋葱、扁豆等。也包括一些木本植物的嫩茎、嫩叶和菌类,如香椿、蘑菇等。
菜蔬(名)①蔬菜。②家常饭食或宴会所备的各种菜。
上述“蔬菜—菜蔬”属于近义同素异序词。其中,“蔬菜”释义与“菜蔬”义项①构成主从关系,即“蔬菜”为主词条,采用了定义加举例的释义方式,“菜蔬”为从词条,采用了同义词间接释义方式。“蔬菜”释义与“菜蔬”义项②则构成了平列关系,即“菜蔬”义项②与“蔬菜”释义平行对等,为其词义差别所在。
二、《现汉》同素异序同义词释义问题
纵观《现汉》中同素异序同义词的释义情况,其存在问题大致可分为体例不一、释义失衡、释义循环、收词缺漏等类型。
1.体例不一
商洽(动)接洽商谈。
洽商(动)接洽商谈。
裁剪(动)缝制衣服时把衣料按一定的尺寸裁开。
2.释义失衡
庖代(书)(动)替别人做他分内的事。
代庖(书)(动)替别人做事。
朴质(形)纯真朴实;不矫饰。
质朴(形)朴实;不矫饰。
感伤(形)因有所感触而悲伤。
伤感(形)因感触而悲伤。
关键词:
0引言
词语相似度计算[1-2]研究的是采用怎样的方法来计算或比较两个词语的相似性。词语相似度计算在智能检索、文本聚类、文本分类、自动应答、机器翻译等领域都有广泛的应用。在不同的应用中,词语相似度有不同的用途,例如,在基于实例的机器翻译中,词语相似度能够表示文本中两个词语的可替换程度;在信息检索中,利用词语相似度能够提升信息检索的准确率和召回率;在问答系统中,答案和问句的符合程度可以通过计算两者含有词语之间的相似度来衡量。本文将研究词语相似度计算在英文辅助写作系统中的应用。
1英文辅助写作系统
(1)英文短语搭配推荐生成
主要针对两个词的query输入,给出语义相似的搭配推荐。用户可以比较推荐的搭配和输入,选择出更地道的英文表达。系统短语搭配参考结果页面如图1所示。
(2)翻译推荐生成
建立中译英的统计机器翻译系统,其中语言模型的语料选用的是ACLAnthology抽取的共1716418句的语料,可以体现出更地道的英文表达。翻译模型的语料采用的是CNKI的摘要,这是个大规模的双语平行语料。对用户的每个中文查询词,后台的在线机器翻译系统进行翻译,返回前十的nbest的结果,以供用户选择。同时用户输入的中文query后返回的英文检索结果是按照评分最高的翻译进行检索获得的结果。系统翻译候选结果页面如图2所示。
(3)同义词推荐和单个输入的搭配推荐
①同义词推荐:利用WordNet生成单个词query的同义词推荐,包括其可能的四种词性的同义词推荐,分别为名词的、动词的、形容词的和副词的。
②单个输入的短语搭配推荐
与(1)的短语搭配参考类似,只是需要其短语搭配生成的步骤。这里短语搭配推荐可能有很多,不便于在页面全部显示,所以按照其在检索库中的精确匹配次数进行排序,只取前五个搭配在页面显示。同义词和短语搭配推荐的结果均按照其在检索库中的精确匹配次数排序后以降序的顺序显示。系统单个输入的同义词推荐和常用搭配推荐结果页面如图3所示。
2.1WordNet
英文WordNet[4]是普林斯顿大学认知科学实验室开发的一部在线词典数据库系统,是基于英文的词汇语义网络系统。WordNet本质上是一个词汇概念网络,描述的是概念间的各种语义关系,WordNet中也规定了动词、形容词和副词的语义知识表示规范,其核心都是synset(同义词集合)以及概念之间的各种关系。
2.2词语相似度研究现状
国内外对词语语义相似度的计算方法大体可分为两类:基于统计的词语语义相似度计算方法[5-6]和基于语义词典的词语相似度计算方法[7-9]。
基于统计的词语语义相似度计算方法是经验主义方法,是把词语相似度的研究建立在可观察的语言事实上,而不仅仅依赖于语言学家的直觉。这种计算方法是建立在两个词语语义相似当且仅当这两个词语语义处于相似的上下文环境中这一假设的基础上,通过利用大规模语料库,将词语的上下文信息作为语义相似度计算的参照依据。
基于语义词典的词语相似度计算方法是基于语言学的理性主义方法,是利用语义词典,依据概念之间的上下位关系和同义关系,通过计算两个概念在树状概念层次体系中的距离来得到词语间的相似度。
3同义词推荐的生成方法
首先通过语义词典WordNet生成用户查询词在通用环境下的同义词候选集,然后利用基于上下文向量的特定语境下的相似度计算方法,计算同义词候选集中每个词与目标词在自然语言处理领域语境下的相似度值,最后将同义词候选集按照相似度值以降序关系排列显示给用户。
3.1同义词候选集生成
WordNet是一个英语词汇及其词法关系的数据库,同时也是一个英语词典。由于WordNet包含了语义信息,所以有别于通常意义上的字典。WordNet根据词条的意义将其分组,每一个具有相同意义的字条组称为一个synset(同义词集合)。WordNet为每一个synset提供了简短、概要的定义,并记录不同synset之间的语义关系。WordNet的开发有两个目的:其既是一个字典,又是一个辞典,但比单纯的辞典或字典都更加易于使用,而且支持自动的文本分析以及人工智能应用。PyWordNet通过一些专门的工具方法将WordNet数据公开为一组Python数据结构。PyWordNet被组织成四个词典,分别对应WordNet2.0的四个部分――名词、动词、形容词和副词。词汇的单词形式是主键,每个记录都包括含义(sense)、同义词组(synonymset)、注释(glosse)和指针(pointer)。
本文通过pyWordNet提供的接口访问WordNet数据库,从而获得用户查询词的同义词候选集列表。此时获得的同义词候选集列表是通用环境下的同义词,而且被认为与查询词的相似度都是相同的。但在特定语境环境下,这些同义词与查询词的相似度会出现不同,考虑到在向用户推荐时,需要把与目标词相似度最高的词排在最前以供用户优先选择,因而需要计算这个同义词集在特定语境环境下与目标词的相似程度。
3.2特定语境环境下的相似度计算方法
3.2.1上下文词语同现向量(CWCV)
特定语境环境下语义相似度计算方法建立在两个词语语义相似当且仅当这两个词语语义处于相似的上下文环境中这一假设的基础上。为了计算两个词语之间的语义相似度,需要从语料中统计词语的上下文信息。在本文中,为每一个需要计算语义相似度的词语构造上下文词语同现向量(CWCV)。
CWCV的定义:一个词语的上下文环境中含有丰富的有关该词的语义信息,在不同的上下文中一个词语往往具有不同的语义,因而可以用在上下文环境中与目标词以某种关系同现的、所有词语构成的向量来表示目标词语,这个向量就是CWCV。
3.2.2词上下文向量的生成
(1)通过简单的浅层句法分析,将训练集中所有文本的每一个句子都分解为若干个句法组,删除不太重要的句法组后,标记其中的核心词和修饰词。
(2)以一个关键词为中心,以句子为共现单位,通过对训练集内该词语的上下文词语进行统计,得出该词语的词上下文向量。用同样的方法得到其它关键词的词上下文向量。
利用上述方法生成的词上下文向量矩阵为:TCV[i][j]=邀Cij妖,其中,i和j的取值范围为[1..n],Cij为小于1的实数,表示第i个词语ti与第j个词语tj之间的上下文关系;第i行的值集合(Ci1,Ci2,…,Cin)即为第i个词语ti的词上下文向量,表示训练集中的n-1个词语与ti之间的上下文关系,可以看作是ti在训练集中的语义描述。
词上下文向量生成算法的主要步骤如下:
步骤1:用浅层句法分析工具将训练集中所有文本的所有句子都分解为句法组,只保留名词句法组和动词句法组,每个保留下来的句法组内进一步删除名词、动词、形容词之外的其它类型的词语,并区分出其中的核心词和若干个修饰词。
步骤2:设置并初始化词上下文向量矩阵TCV[n][n]。
步骤3:生成矩阵,具体算法为:
for(i=0;i<训练集中的句子总数;i++)
for(j=0;j<句子中的词语个数;j++)
邀
wij=第i个句子中的第j个词语;wik=第i个句子中的第k个词语;
if(wij和wik位于同一组且具有修饰关系或位于不同的句法组但都是核心词)
R=1;elseR=α;
noij=wij在向量空间特征集中的序号;noik=wik在向量空间特征集中的序号;
TCV[noij][noik]=TCV[noij][noik]+R;
妖
步骤4:对TCV中每一个不为空的向量都进行规格化。
3.2.3基于词上下文向量的词语相似度计算
在上述词上下文向量矩阵的基础上计算任意两个词语之间的相似度,具体方法是:给定两个词语,从词上下文向量矩阵中分别提取各自对应的词上下文向量,直接计算这两个向量之间的余弦系数并将其作为词语之间的相似度值,计算结果保存到相似度矩阵中。词语相似度矩阵Sim的计算公式如下:
其中,Sim为下三角矩阵,i≥j,TCV[i]、TCV[j]分别为词语ti和tj的词上下文向量,Sim[i][j]为词语ti和tj之间的相似度,TCV[i][k]、TCV[j][k]分别为词语ti和tj的词上下文向量第k维的权值。
这里设定的baseline方法是只使用WordNet产生的同义词获选集的方法。
文中采用以下指标对算法进行评价:
(1)准确率(precision)的评测公式如下:
其中,N■表示的是测试的单词总数,当人工观察的最相似词排在系统排序中的第一位且系统排序与人工排序最多有一个顺序不一致,此时认为系统排序结果正确。Ncorrect为系统排序结果判定为正确的个数。
(2)排序倒数(ReciprocalRanking,RR)是算法返回结果中正确结果出现位置的倒数,平均排序倒数是多次计算的RR的结果的平均值,利用如下公式:
其中,N表示测试单词总数,ni表示对于第i个查询单词的人工判定的最相似词在系统排序结果中位置ni。
通过表1的准确率可以看出,本文的方法相比于baseline方法可以很好地选择出查询词的最相似词。通过MRR值可以看出,本文的方法相比于baseline方法可以对相似词语与查询词的相似程度给出一个合理的排序,即可以给检索系统提供一个准确的待扩展词的相似度排序。通过C评价方法,发现在100个测试词中,本文方法的获胜比例为44%,而baseline的方法的获胜比例只有16%,这说明本文方法产生的同义词推荐中与目标词最相似词的常见程度远大于baseline的方法。
在ACLAnthology语境下的相似度排序举例说明,对查询词cite的动词形态在WordNet的相似度和本文相似度如表2所示。
单词cite的通用环境下的同义词为refer、name、mentio-n、advert,在WordNet的相似度计算下,其相似度均为1.0,不能区分出与目标词cite的最相似词和获得相似程度的排序。而本文相似度在这里得到了较好的效果,单词refer在该语境下是与单词cite最相似的词,大量观察下这符合ACLAnthology使用情况。同时观察出单词advert在ACLAnthology没有出现,这说明在通用领域下的同义词可能在特定语境环境下与目标词完全不相似,两者不可替换。
5结束语
词语相似度计算在自然语言处理、智能检索、文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域都有着重要的应用价值。本文将词语相似度计算的知识应用到英文辅助写作系统中,结合了语义词典WordNet和基于上下文的特定语境环境下的相似度计算的方法生成有序的同义词推荐。本文的方法在准确率、MRR以及本文设定的C评价这三个指标上远优于只使用WordNet的方法,同时本文的方法在准确率的评价中达到73%,基本满足用户的需求。
参考文献:
[1]TURNEYPD.SimilarityofSemanticRelations[J].Computation-alLinguisticsJournal,2006,32(3):379-416.
[2]秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].信息系统,2007,30(1):105-108.
[5]BROWNP,PIETRASD,PIETRAVD,etal.Wordsensedis-ambiguationusingstatisticalmethods[C]//Proceedingsofthe29thMeetingoftheAssociationforComputationalLinguistics(ACL-91),Berkley,C.A.,1991:264-270.
[6]DAGANI,LEEL.Similarity-basedmodelsofwordcooccurrenceprobabilities[J].MachineLearning.SpecialIssueonMachineL-earningandNaturalLanguage,1999.
[7]刘群,李素建.基于《知网》的词语语义相似度计算[J].Comput-ationalLinguisticsandChineseLanguageProcessing,2002,7(2):59-76.
摘要:
在对外汉语词汇教学中,单音节同义词的辨异较为困难。本文以三组单音节同义词为例,从汉字的本义着手,比较其本义或引申义之间的区别,以期为单音节同义词辨异提供一条新思路。
单音节同义词;本义;辨异
同义词,指词义相同或相近的一组词。把握同义词之间的异同,对于准确表达有着重要的意义。是否能选择合适的同义词来进行准确、得体的口头和书面交际,不但是衡量汉语母语者,也是衡量留学生汉语水平的一个重要标准。
1对外汉语同义词教学研究之现状
2辨异
2.1“道—路”辨
2.2“交—付”辨
2.3“向—对”辨
实词的辨异可以从本义着手,虚词也不例外。现代汉语里有很多单音节虚词,使用频率很高,如:在、以、把、将、被、比、和、跟、据、按、为等。这些词只有语法意义,教学本已不易,辨异更为困难。但它们多由古代汉语中的实词(多为动词)虚化而来,其本义是实在而清晰的。因此,分析其本义,理出其引申义列,对其虚词义的辨异,是有帮助的。“对”和“向”是留学生最早接触的两个介词。二者有时可互换,有时却不能。例如:
1)√他对我笑了笑。|√他向我笑了笑。
2)√请代我向老张问个好。|×请代我对老张问个好。《现代汉语词典》指出,“对”是引进动作的对象的,“向”是指明动作的方向的。这样的解释很专业,对留学生来说,则嫌抽象。“向”和“对”的介词义均从其本义引申而来,我们尝试从其本义出发,来比较其引申义的不同。“對”字本从丵从口从寸,从丵从士从寸的字形出现较晚。许慎在解释“對”从“士”的原因时说:“漢文帝以為責對而為言,多非誠對,故去其口,以從士也。”[12]可见“對”的本义是“面对面地答问”,动词,如“公问之,对曰……”(《段于鄢》)。这个本义保留在一些合成词或成语中,如“对答如流、叨陪鲤对”等。从这个本义引申出“面对面地”义。这个意思也保留在一些合成词里,如“对质”、“对峙”等等。在“面对面地”的基础上进一步引申,就出现了“对”的介词义项“朝着”。这个义项把“面对面地”这个特点也带了过来。如:
2.4体会
今天的某些单音节同义词,其本义可能相近(如“道—路”“交—付”),也可能毫不相干(如“向—对”)。本义接近的,可通过分析本义来直接比较二者的差异。本义毫不相干、仅因某一组引申义较接近而成为同义词的,可通过梳理其引申义列来达到辨异的目的,因为引申义或显或隐、或多或少都带着其本义的痕迹。立足于本义的引申义之间的比较,区别更清晰。因此,对外汉语单音节同义词辨析要有历时的眼光,从词源义出发的同义词辨异,效果更好,更有说服力。
3结语
对外汉语教学的同义词辨异,不论是辨析对象的范围,还是辨析的方法,都与汉语本体研究有所不同,要紧密结合学习者的认知特点来进行。由于学习者汉语水平的限制,辨析时应务求简单易懂。鲁健骥早就指出:“在教学上使用的,不是对比的过程,而是对比的结果。这就是说,给对等词也好,词语例释也好,都必须体现对比的成果,但并不是要我们在教材和课堂教学上从研究的角度向学生展示怎样进行对比。”[14]教师对于同义词的区别要知其然,更要知其所以然,对它们的词义、用法、色彩等方面的区别要了然于胸,这是教师的基本功;但是,呈现给学生的,不能是繁复细致的辨析过程,而应该是辨异的结果。如果某组同义词有多个区别,也不要对留学生和盘托出,而应以解决当前的问题为度,以免学生消化不良,产生畏难情绪。单音节同义词的辨析也是如此。在给学生讲解时,要用他们能接受的浅易的语言,辅以精当的例句,才能取得良好效果。任何方法都不是万能的。从汉字本义着手进行辨析,只是单音节同义词辨异之一途,是我们解决实际教学工作中的困难的一种粗浅尝试,尚有待更多的辨异实例来充实、完善。
[1]张博.同义词、近义词、易混淆词:从汉语到中介语的视角转移[J].世界汉语教学,2007(3)
[2]周上之.对外汉语的词典与词法[J].汉语学习,2005(6)
[3][4][8][9][10][12][13]段玉裁.说文解字注[M].上海:上海古籍出版社,1988
[5][6]阮元.周礼注疏[M].北京:中华书局,1980
[7][11]中国社科院语言研究所词典编辑室.现代汉语词典[M].北京:商务印书馆,2009
一、莫斯科语义学派的释义方法及原则
以Ю.Д.Апресян为代表的莫斯科语义学派主张采用“元语言释义方法”对词汇语义单位进行注释。
莫斯科语义学派的语义元语言是缩略的、统一的自然语言,由相对简单的词、词法形式和句法结构构成,它们的数量比对象语的词汇总量要少很多,元语言的所有单位应满足称名与意义单一对应的要求,即在元语言中不应该有同义词和同音异义词,一个语言单位只表示一个意义,一个意义只用一个语言单位表示。元语言的词汇组成是逐级扩展的,从最简单的语义单子(семантическийпримитив)[1]到在此基础上形成的过渡语义单位。
按照莫斯科语义学派的理论,语言词典的描写单位不是词,而是词汇语义单位,即带有所有词法、句法和词汇组合特征信息的词的一个义项。释义是采用缩略、统一的限量语义元语言以命题表达式的形式系统描写词汇语义单位在所有用法中的意义。这里我们主要论述“元语言释义方法”最重要也最独特的四个原则――命题表达式、语义分解、系统性和全面性。
1.命题表达式原则
释义解释的不是孤立的标题词项,而是包含标题词项的命题形式,即由标题词项和其语义配价变项(X,Y,Z)组成的表达式。莫斯科语义学派认为,语义配价是谓词语义单位(动词、形容词、部分名词等)所描写情景的必需参与者,与该谓词释义中的变项相对应。例如,词典中释义的对象不是词“感谢”,而是“X为Z感谢Y”;不是词“治疗”,而是“X用W治疗Y的疾病(身体部位)Z”;不是“心”,而是“X的心”。这样的释义不仅解释了关键词的意义,而且反映了关键词组合关系的述谓表达式。这种采用命题表达式形式的释义能同时反映关键词的语义、句法属性。
2.语义分解原则
语义分解原则可以有效地避免循环释义问题。循环释义在词典释义中比比皆是。莫斯科语义学派则认为,释义是通过对初始词汇意义进行逐级的语义分解得出语义单子。例如,“X为Z感谢Y”的释义为:“X认为,Y对X做了好事Z,X认为自己有义务用言语或是善意的行为补偿Z”。(Апресян1974)再如,Ю.Д.Апресян(1974)对“爱”的释义为:“X对Y的爱:X对Y有感情,Y对于X是令人高兴的并且Y使X产生愿望――想和Y有联系或者对Y做出好的事情。”语义分解与系统性原则相结合能够揭示同义词、近义词和反义词之间意义的相同与差异。
3.系统性原则
系统性原则要求不同的词汇语义单位中相同的义素应给出相同的定义。例如,俄语“追赶”的释义为:“A和B在同一方向移动,A和B之间的距离在缩短,并且A位于B的后面”,而“落后”的释义为:“A和B在同一方向移动,A和B之间的距离在增加,并且A位于B的后面。”(Апресян1974)在上述释文中,义素“缩短”和“增加”在其他相同的义素背景下明确地显示出它们意义间的异同。这样的释义既能保证描写的系统性,又能使读者对近义词、反义词的异同一目了然。
4.全面性原则
莫斯科语义学派的学者们采用元语言释义法编写了多部词典,其中影响最大的是由И.А.Мельчук和А.К.Жолковский编写的《现代俄语详解组合词典》(1984)及Ю.Д.Апресян主编的三卷《新编俄语同义词解析词典》(1997,2000,2003)。这两部词典的共同特点是积极性、系统性、全面性,词典以词的义项为单位对其语法、句法、语义、搭配等特征进行整合描写。《现代俄语详解组合词典》可供人机两用,其形式化特点更突出;而《新编俄语同义词解析词典》不是按照字母顺序,而是按照义类原则排列,例如,词典将表示言语行为的同义词列、表示情感和心理状态的同义词列等排列在一起。值得一提的是,Ю.Д.Апресян是莫斯科语义学派中将元语言系统性用于词典编纂的最具代表性的学者。
二、动词“等”的释义分析
动词“等”在《现汉》中只有一个义项,即“等候;等待”。我们采用莫斯科语义学派元语言的释义方法和配价理论把动词“等”划分为以下六个义项。等1的释义如下:
X在Z等1Y=X知道或者认为,X需要的人或者涉及X的某种事件Y应该到来或发生,X处于准备状态,通常位于Y应该到来或发生的地方Z。
该释文中的X,Y,Z是“等1”的语义配价,其中,X为“主体”,为表人的动物名词短语;Y为“客体”,通常为表示人、工作、交通工具、事件的名词短语或小句:Z为“处所”,为表示处所意义的介词短语。例如:他在宿舍等朋友;孩子们在站台等公共汽车;许多操着外地口音的群众演员在这儿等活儿;他已家徒四壁,无力负担昂贵的手术费了,只好在家等死;父亲在门口等我回来与他聊天呢。[2]
等2的释义:X等2Y=X知道或者认为,X需要或者涉及X的某种事件或时刻Y应该或者可能发生,X处于准备状态。
等2与等1的区别在于,等2的释文中没有“X位于Y要发生的地方Z”,即处所意义,等2更强调主体对于客体的准备状态。
等3的释义为:X等3Y=Y自信地认为,Y需要或者涉及Y的某种事件X会在不久的将来发生。
等3同样有X,Y两个语义配价,但是主体X为表机会、梦想、胜利、未来、职位或结局等抽象意义的非动物名词,而客体Y为表人的动物名词。例如,这可能是一个新的开始,我的梦想就在不远的地方等着我;他深信,市长的位置正等着他。
等3的意义强调Y认为事件X在不远的将来一定会发生的主观态度。
等4有X,Y,T三个配价,其中,主体X和客体Y均为表人的动物名词。例如,明天我等你;星期六两点我们等你喝茶。
等5的释义为:X等5Y=X想要事件Y发生。此时“等”表示“想要、盼望”的意义。
等6的释义为:X等6Y=某种工作或事情X需要Y去做。等6的主体配价X多为表工作或事情的非动物名词短语,客体配价Y为表人的动物名词。例如,天亮后我起身要走,因为今天还有一部戏等着我;每个擦肩而过的人都是行色匆匆,仿佛什么非办不可的事在等着他们。
我们把动词“等”划分为这六个义项的依据是:首先,通过元语言释义我们可以看到这六个义项的意义是不同的,有细微的差别;其次,在不同义项中,“等”的配价是不同的,即使有些义项中“等”的配价相同,对主体、客体等配价的要求也是不同的;最后,为了体现词典释义的全面性原则,将“等”在所有用法中的意义列出来。
三、结论
附注
[1]目前对该术语(英文semanticprimitive)有多种译法:“语义基元”“语义原词”“语义原语”“语义原子”“语义公因数”“语义单子”“语义原生意义”等,本文采用“语义单子”这一译法。
参考文献
1.安华林.汉语语文词典编纂理论与实践新探.语言文字应用,2006(2).
2.李行健主编.现代汉语规范词典.北京:外语教学与研究出版社,语文出版社,2010.
3.中国社会科学院语言研究所词典编辑室.现代汉语词典(第5版).北京:商务印书馆,2005.
4.АпресянЮД.Оязыкетолкованийисемантическихпримитива
х.Изв.АНСССР.Сер.Лит.Ияз.,1994(4).
5.АпресянЮД.Лексическаясемантика.Москва:Наука,1974.
6.АпресянЮД.Новыйобъяснительныйсловарьсинонимоврусскогоязыка.выпускIМосква:Языкиславянскойкультуры,1997.
语义韵律理论给对外汉语词汇教学的启发
1、语义韵律理论在对外汉语词汇教学中可用于词汇搭配教学
语义韵律研究通过语言单位间的组合关系来探讨语言单位之间语义的相互影响,对确定词汇的意义及用法具有一定的指导意义。汉语学习者在学习词汇过程中,经常使用一些合乎汉语语法却不地道的词语组合,比如,很多汉语学习者会说出“挨表扬”这样的短语运用语义韵律理论,我们不难发现“挨”一般与“骂”、“打”“批评”消极词语搭配。如果教师在讲“挨”这个词的用法的时候,运用语义韵律理论就比较容易让学习者理解。汉语学习者才可能在汉语词汇搭配运用过程中,说出自然、地道符合汉语表达习惯的词汇搭配,从而避免出现像“挨表扬”这样符合汉语语法但不地道的异常搭配。
2、语义韵律理论在对外汉语词汇教学中可用于同义词的辨析
同义词在对外汉语词汇教学中有其特殊性和重要性,汉语中存在数量极多的同义词,同义词由于意义相似和重合,极易让汉语学习者引起理解和运用的困惑,是汉语词汇学习的一个难点。尤其是中高年级的汉语学习者经常遇到同义词的辨析,他们经常在语言使用过程中对同义词不能够细致区分。传统的词义辨析,是对同义词的词目意义逐条分析。在词典中遇到对词语的解释,一般用同义词互训解释是很常见的现象,这种解释对于母语使用者来说能够“使用”,但是对于汉语学习者来说则会产生很大的麻烦。比如“挑”和“选”这两个词,在《现代汉语词典》(商务印书馆)里的解释:“挑”的解释是“挑选”,“选”的解释也是“挑选”,所以这个解释会让汉语学习者很迷惑,他们可能认为这两个词语的意义一样,这两个词也可以用在同样的语言环境里,但是一般来说,“挑”除了和一些表示中性意义的词语搭配外,比如“挑苹果”“挑衣服”,还会和一些带有消极语义韵的词语搭配,比如“挑毛病”“挑刺”等,但是“选”这个词一般只和表示中性意义的词语搭配。如果使用语义韵律理论搭配则会对近义词的辨析有一定帮助,可以避免汉语学习者在近义词辨析过程中出现偏误。
3、运用语义韵理论可以提高汉语学习者运用汉语的交际能力
语义韵律在对外汉语词汇教学中的不足
【关键词】HNC概念表述;“词群-词位变体”理论;同义词群建构;词义描写。
【作者简介】冯丽,武汉大学文学院2008级博士研究生,研究方向:语言学及应用语言学。
黄曾阳先生创立的HNC(Hierarchical
NetworkofConcepts)理论,用概念联想脉络构筑了自然语言表述与理解的理论框架。它设计了基元概念、基本概念和逻辑概念三大语义网络以实现对抽象概念的类聚[1]。但这些概念的网络,即使在HNC的最低层也仍以抽象概念居多,并未延伸到表达具体概念的词语及其语义内涵。
一个完整的概念网络不应止于抽象概念,而应该从抽象概念继续深入,延伸至表达具体概念的具体词语并揭示和处理语义(词义)的所有内涵。词语是概念的载体,语义是概念的内容。对于概念的研究需落实到词义上。但迄今为止,揭示词义内涵仍是一个难点。这个难点“HNC未解决,其他流派也未及解决”[2]。鉴于此,萧国政先生提出了“词群-词位变体”理论,构建具体概念的同义词群。一方面,实现具体概念的类聚;另一方面,揭示各个概念的内涵及其语义特征。以期完善语义网中词汇语义内容的表述系统,实现HNC概念联想脉络到词汇语义的延伸和对接。
本文的研究是针对HNC局部联想——词汇层面的联想所进行的词汇语义研究。这是武汉大学萧国政先生带领的团队将“词群-词位变体”理论与HNC理论相结合的系列研究之一。
二、HNC中的概念表述系统
HNC建立的关于词汇层面的局部联想脉络体现为一个概念表述体系。它将概念分为抽象概念和具体概念,并侧重表达抽象概念。
1.抽象概念的表述。HNC理论通过{v,g,u,z,r}五元组(分别表示{动态,静态,属性,值,效应})来表达抽象概念的外部特征;用网络层次符号来表达抽象概念的内涵[3]。例如,HNC中对“思维活动”这一概念节点的表述:
8行思维活动
80思考vg,思维g,想法r
800概念r,观点z
“思考,思维,想法,概念,观点”都是表示“思维活动”的抽象概念。其中,字母表示各个概念的外部特征。“vg”表示“思考”这个概念既有动态性,又有静态性;没有“v”的都表静态。“思维”“概念”“想法”“观点”的区别是:“思考”“思维”是“思维活动”的起点,“概念”“想法”“观点”是结果。在结果中,z又是r的取值[4]。即由始到终产生的效应r和结果z。
数字是HNC的网络层次符号,它们表示抽象概念的内涵。“8”表明这些词都是概念网络中“8行”表“思维活动”的概念。数字相同说明概念处于同一个层级。“80”行是“8行”的下层概念。“800”所表达的概念则处于80行的下一层级,即“想法”包括“概念”和“观点”。
可见,HNC对抽象概念的表述是内外结合,比较全面。也在一定程度上实现了对表达同一抽象概念词语的类聚,并分层表述。但这只显示出这些概念在网络中所处的位置,并没有表明其语义内涵及它们之间的意义差别。
2.具体概念的表述。由于具体概念的表现十分复杂,难以使表达规范化,所以HNC理论对具体概念不做解释,而是采取向抽象概念的基元概念和基本概念挂靠的方法表达。例如:
上表中,p,w,pw,w9是HNC理论中用于表示具体概念不同类别的符号(P:人,w:物,pw:一般人工物,w9:现代产品)。
要表达“夫妻”这一具体概念,需将“人”这一类别挂靠到4行(关系)之下表示“结合”的概念基元411节点上。“交通工具”这一具体概念,需由“一般人工物pw”向基元概念中表示“物自身转移”的22b概念节点挂靠,等等。
挂靠表述虽是一种粗糙和近似的表示方法,但其重要意义在于它在具体概念与抽象概念之间建立了一种关联,并把这种关联用符号显性地表示出来,有利于语义距离的计算[5]。但HNC对于日常交际中常用的具体概念及其下位概念尚未涉及和标注。例如,HNC中“交通工具”的表述:
pw22b交通工具
pw22b9空中交通工具
pw22ba海上交通工具
pw22bb陆上交通工具
[其中,22b9:空中,22ba:海上,22bb:陆上。HNC的层次符号集由0-13表示,其中,10-13用小写abcd表示(16进制)]
这些HNC的最底层概念并未延伸到人们日常使用的具体概念(如:飞机、船、车等)及更具体的下位概念(如:直升机、战斗机等),也未对这些概念的语义内涵进行分析和描写。
可见,无论HNC中的抽象概念还是具体概念均需向下延伸,与表达具体概念的词语及其语义联系起来,才能使这一网络更加完备。
正如黄曾阳先生所说:概念层级网络(HNC)的设计为计算机理解自然语言的语义提供了有力的手段。当然,在工程实现上首先要完成对自然语言词汇语义的描写,这是一项浩大而艰巨的工程,但这个瓶颈问题跟过去相比已有了本质的不同,过去缺乏语义描写的完备手段,现在手段已备,剩下的只是工作量的问题[6]。
要完成这个工程浩大的任务,逐个地描写词语的语义似乎不太现实,而如果将表达同一概念的同义词聚合起来,分组描写则是完成这一目标的有效途径。“词群-词位变体”理论就是实现这一目标的一种指导方法。
三、“词群-词位变体”理论
“词群-词位变体”理论[7]是萧国政先生提出的一种新的同义词群构建理论。其目的是为了建构带有精细词义结构,能够揭示具体概念的区别、联系等语义内容的一种人机共享的词汇语义表述系统。
1.“词群-词位变体”理论的主要思想。“词群-词位变体”理论认为:概念是无限的,但是任何一种语言用词位表达的概念是有限的。词位有基点词位和非基点词位之分,一种语言的词义系统是以基点词位及其变体构成的同义词群体系。如果用∑表示词群体系,S表示词群,W0表示基点词位,W1,W2,W3……Wn表示词位变体,则它们之间的关系如下:
∑={S1,S2,S3……Sn};S={W0,W1,W2,W3…Wn}
一个面向语言知识与语言推理的特定词义的同义词群,一方面是一张网的一个概念节点,另一方面它又像是带有多个触角的局域网或子网。由一个个同义词群构成词群体系。这个以词义为纲、以词形为目的词汇语义概念的总集合,对应的是交际及计算机信息处理中由词表达的全部概念。
该理论之所以称为“词群-词位变体”理论,是因为该理论建构词群和词群体系的方式和途径是发掘和确认词位变体,并且通过研究词的意义构成以及意义相同、相近或类同的词之间的关系达到这一目标。即“词群”是由“词位变体”所组成的集合。
2.“词群-词位变体”理论中的几个概念。萧国政先生指出:“词位既指词的某个基本意义与特定语音形式或文字形式结合形成的个体,也指词的一个基本意义与不同语音形式或文字形式结合形成的若干个体的集合。”[8]即“词位”有两层含义。其一指作为词汇单位的词本身;其二指这个词及其不同变体构成的集合。之所以认为同义词群能够与HNC的概念节点衔接,正是因为词位具有个体性和集群性特点。HNC的概念节点大多表现为个体词位(如“夫妻”),而同义词群是集群词位(如“夫妻”词群)。无论是个体词位还是集群词位,它们表达的是同一个概念。
“词位变体是词位在具体被运用时所出现的一种变化形式”[9]。它在同义词群建构中指概念义相同、所指相同,而形式不同的同义词,也称“变体词位”。我们在言语中实际运用的正是词位的各种变体。
“基点词位”是一个能够代表词群概念义的词位。其他变体词位的发掘和确认都需以此为参照标准。因此,在建构同义词群时,“基点词位”宜选用现代汉语标准用语中的基础常用词,而不是方言词或生僻词。同义词群就是以基点词位为典型代表,以变体词位为其成员的同义词组成的集合。如“夫妻”同义词群(集合){夫妻,夫妇,伉俪,伴侣,两口子,两公婆,老两口,小两口……}中,“夫妻”是基点词位,集合中的其他成员是“夫妻”的变体词位。
确定了基点词位,一个同义词群中所有变体词位的语义内涵都可用“基点词位+区别性特征”描写。这可使词义描写大为简化。
词义描写指对词语语义构成的描写。词义与概念义并不完全对等。词义包括两部分:基本词义和附加意义。而概念义大致相当于基本词义[10]。因此,语义构成的描写应包括基本义和附加义两部分。基本义即词群的概念义,是共性部分;附加义表示区别性特征,是一词区别于他词的个性差异。基本义和附加义分别描写可清晰地显示同义词之间的同与异。
四、各种位义关系的同义词群建构
具有相同的概念义是同义词群建构基础。根据概念的位义关系,我们可建构各种同义词群。如果一个概念包含另一个概念,它们之间是上下位关系,我们可建构“上位同义词群”和“下位同义词群”;若两个概念是并列的同位关系,则可建构“同位词群”;当下位概念还包括分类更细的具体概念时,它们又可构成下位同义群的子词群,简称“下位子词群”。
1.上位同义词群。本文以“夫妻”为例建构词群。在HNC系统中,“夫妻”是末层节点。实际上,它包含下位概念“丈夫”和“妻子”。相对来说,“夫妻”是上位概念。在言语交际中,这一概念常常用其他词语表达。我们可将概念和所指相同,表现形式不同的其他变体与“夫妻”归入同一个词群。
根据维基百科的解释:夫妻或夫妇是指男性和女性经过一定仪式(婚礼)或法律程序确立婚姻后的关系。伉俪则是对别的夫妻的称呼。古汉语和书信把自己和配偶谦称为“愚夫妇”,把对方及其配偶尊称为“贤伉俪”[11]。
根据上述定义,“夫妻”的语义构成可描写为:夫妻[+男女二人+合法婚姻关系]。其同义词有“夫妇,伉俪,伴侣,两口子,两公婆,老两口,小两口”等。由于“夫妻”一词是现代汉语常用标准用语,既可用于口语又可用于书面语,我们以此为基点词位建构其同义词群。词群中因地域、年龄、语体不同而存在的各种形式便是“夫妻”的变体词位。这些变体都可用“基点词位+区别性特征”描写。如:
基点词位及其语义构成:夫妻=[+男女二人+合法婚姻关系]
变体词位及其语义构成:
夫妇=[夫妻+前可加丈夫名+书面语]
伉俪=[夫妻+前可加丈夫名+事业有成+可相匹敌+书面语+褒义]
伴侣=[夫妻+或夫妻一方+书面语]
两口子=[夫妻+北方方言+口语]
两公婆=[夫妻+南方方言+口语]
老两口=[夫妻+北方方言+口语+老年]
小两口=[夫妻+北方方言+口语+青年]
用“基点词位+区别性特征”这种描写方法,既可使描写简洁明了,又凸显了各词语之间的细微差异。如:“两口子”和“两公婆”的差异仅在于前者是北方方言,后者是南方方言。
2.下位同义词群。当某个概念包含具体的下位概念时,可建构下位同义词群。如上述“夫妻”包括“丈夫”和“妻子”两个下位概念。
“妻子”,又叫老婆,古代又称娘子、夫人,是男女婚姻中对女性的称谓,与丈夫相对应。“丈夫”,又叫老公,古代又称相公、夫君、外子,是男女婚姻中男性一方[12]。据此它们的语义构成可描写为:
妻子[+男女+婚后+对女方的+称谓]
丈夫[+男女+婚后+对男方的+称谓]
“丈夫”的同义词有“丈夫,先生,老公,爱人,孩子他爸,老头(子),当家的,夫君,配偶”等。“妻子”的同义词有“妻子,太太,老婆(子),爱人,孩子他妈,媳妇,堂客,夫人,贱内,内人,配偶”等。它们分别构成“丈夫”和“妻子”的同义词群。在这两个下位词群中,“丈夫”和“妻子”分别是两个词群的基点词位。
“妻子”的同义词群描写如下:
基点词位及其语义构成:妻子=[+男女+婚后+对女方的+称谓]
堂客=[妻子+中南方言]
媳妇=[妻子+北方方言]
孩子他妈=[妻子+北方方言+面称]
内人=[妻子+谦称]
老婆(子)=[妻子+口语俗称]
爱人=[妻子+北方方言+尊称+爱称]
夫人=[妻子+尊称]
太太④=[妻子+丈夫姓](④指该词语在《现代汉语词典》第五版中的第④个义项[13])
“丈夫”与“妻子”是同位关系,二者的语义构成之差异仅在于“男方”或“女方”,其同义词大致与“妻子”相对。由于篇幅所限,“丈夫”的同义词群可参照“妻子”词群建构,在此不加赘述。
3.同位词群。同位词群是由两个以上同位关系概念构成的词群组成的。当二者的词群分别构建完成后,同位词群自动产生。如“丈夫”和“妻子”词群共同构成“夫妻”的下位词群。
此外,“丈夫”和“妻子”这两个同位概念还存在特殊的“同称变体”。即无论“丈夫”还是“妻子”,它们的变体称谓相同,如“配偶,爱人,那口子,老伴……”它们的语义构成可描写为:
配偶=[丈夫或妻子+多用于正式文件+书面语]
爱人①=[丈夫或妻子+口语+尊重]
那口子=[丈夫或妻子+北方方言+口语+随意]
老伴=[丈夫或妻子+老年+口语]
4.下位子词群。从“妻子”这一概念的历时使用情况看,其下位概念还可分出其他小类,这些小类构成的词群称为下位子词群。
在一夫多妻时代,“妻子”还有“原配(元配),正室①,二房,小老婆”等称谓。这些称谓主要指一夫多妻制结构中,明媒正娶,有合法婚姻关系的女性配偶(妾①、姨太、陪房等不受法律保护的不在此列)。其中有的地位低于第一个“妻子”。它们的语义构成可描写为:
原配/元配=[妻子+第一个+旧称]
大老婆=[妻子+原配的俗称+旧称]
正室①=[妻子+明媒正娶+地位同原配+旧称+书面语](正室①可以是原配,也可以是续弦,但地位如正妻。)
二房=[妻子+第二个+地位较低+旧称+书面语]
小老婆=[妻子+第二个或以后+地位较低+旧称+口语]
(文中①指该词语在《现代汉语词典》第五版中的第①个义项[14])
由于这些词语是旧时代的产物,可称为“旧称变体”。需指出的是,这里的“小老婆”与现代汉语中的“小老婆”语义有较大差异。解放前,法律允许有钱人三妻四妾。“小老婆”也是明媒正娶,是法律认可的。但解放后法律规定一夫一妻制。现代汉语中的“小老婆”是不被法律认可和保护的第三者。所以,有必要说明是“旧称”以示古今之差异。
还有一类是原配亡故后,再娶的“妻子”,如“继室”,也称“继配”“填房”等。这些都属于正妻。只是“填房多为年轻寡妇或大龄姑娘,或为翁婿关系密切,长女出嫁后亡故,以次女续配”[15]。它们的语义构成可描写为:
继室/继配=[妻子+原配亡后再娶+地位同原配+旧称]
填房=[妻子+原配亡后再娶寡妇/大龄姑娘/妻妹+地位同原配+旧称]
以上同义词群构建,不仅将分布零散的同义词聚合在一起,细致地描写了每个具体概念的语义内涵,清晰地揭示了同义词之间的同与异。同时也清晰地绘出了“夫妻”这一概念的位义关系图(见下图)。
五、结语
“词群-词位变体”理论与HNC理论一脉相承,是HNC理论的发展和延续。这一理论指导下建构的词群是带有精细词义结构,能够揭示具体概念的区别和联系的一种词汇语义表述系统。与HNC中的概念表述系统形成互补。
同义词群建构为语义内涵的揭示和描写提供了方法。在进行词语类聚的同时,对比同义词,揭示了词语的详细语义内涵;用“基点词位+区别性特征”描写词群中的各个变体,清晰地显示了同义词之间此义跟彼义的联系与区别。解决了以往同义词对比中描写过于粗略的问题。这些不仅为词汇语义系统的建构提供了途径、方法和依据,而且对完成计算语言学的工具网络与自然语言语义的对接和映射,以及建立人机共享的词汇语义表述系统有着积极的意义。
(本研究得到武汉大学“985工程”二期拓展项目《语言科学技术与当代社会建设跨学科平台》《基于特征概念特征的汉语语义网的理论探索与技术实现》的项目基金资助。项目编号:985yk006)
注释:
[1][6]黄曾阳:《HNC(概念层次网络)理论——计算机理解语言研究的新思路》第8页,[北京]清华大学出版社1999年版。
[2][4][10]萧国政、肖珊:《从概念基元空间到语义基元空间的映射——HNC联想脉络与词汇语义结构表述研究》,载《华东师范大学学报》2011年第1期。
[3][5]黄曾阳:《HNC理论概要》,载《中文信息学报》1997年第4期。
[7][8]萧国政:《动词“打”本义的结构描写及其同义词群建构——一种人机共享的“词群-词位变体”研究初探》,载《第七届中文信息处理国际会议论文集》第3-9页,[北京]电子工业出版社2007年版。
[9]高名凯:《论语言系统中的词位》,载《北京大学学报》1962年第1期。
关键词术语词典知识组织用户交互术语计算数字出版
术语词典是面向专业领域提供知识服务的重要工具。然而,现有术语词典的编纂还存在一些问题。例如,术语词典的知识内容大多较为简略,主要提供释义、英文翻译等内容,对于深层知识的组织和描述需要提高。术语词典的编纂自动化程度偏低,不少术语词典的编纂仍然沿用传统的手工方式,术语搜集、整理、分类、排版、校对流程主要由人工完成,缺乏必要的自动化辅助工具。这些简单重复的手工劳动极易出错而且效率低下,导致术语词典编纂滞后于科技的发展和语言事实的变化,且难以实现资源共享。(解海江,章黎平2010;冯志伟2006;赵刚2011;张爱朴2012)如何从知识组织的角度对术语知识进行深度描述,进而设计半自动化的术语词典编纂系统,是当前术语词典研究领域的重要课题,无疑具有十分重要的意义。(王惠临,吴丹,石崇德2006;赖茂生,屈鹏,谢静2009)
术语词典编纂系统的设计要以知识组织为依托,形成较为规范的、半自动化的知识生产流程。术语词典是提供专业知识服务的工具,需要对术语所指称的客观事物或知识内容进行深度揭示。因此,术语词典编纂要求编者不但要有语言知识,而且更重要的是要有专业知识。术语词典注重的是术语的概念,且以语词来表达这些概念,一般按照主题顺序排序。术语的概念范畴、范畴成员之间的关系是术语词典研究的一个重点,术语词典编纂以术语学和词典学为基础理论,应用知识组织、计算语言学的基本方法和技术,经过词汇收集、术语规范、知识描述、知识链接等,形成人机两用的知识资源。(ZengMarciaLei2008;宋培彦2012;傅爱平,吴杰,李芸2009)
三、术语词典知识组织结构
本模型对术语知识进行结构化处理。词典由词条构成,词条是词典的基本单位。术语知识可分为五部分:词目、同义词、释义、范畴和知识链接。下面对这些内容分别进行介绍:
(1)词目。词目的选择必须覆盖术语词典的学科知识体系,选词立目要受词典的性质、规模、预定的服务对象等多种因素制约,考虑收词的均衡性和使用频度,提供准确、规范的专业术语。同时,术语词典中的词目具有语言学属性,往往表现为词、词组(可以为固定搭配或自由搭配)或字符(例如:O代表氧、A72代表72号汽油)。(叶其松2010;何瑞清2011;亢世勇,王兴隆,谢晓艳2012)词目是知识概念的载体,用于表示特定的专业概念。词目一般选择术语的规范名称,对于部分容易引起歧义的术语可以通过注释进行处理。为了便于使用术语,往往还需要加注外语翻译(英语、日语、俄语、拉丁语等多个语种)。对于部分罕用的术语词目,必要时需要注明拼音。
(2)同义词。同义词是指向同一概念的多个术语的统称,在术语词典中用“亦称”“又称”“又名”“亦译”“旧译”等来标注。一般术语词典将缩略语也视为其同义词。
(3)范畴。综合性的专业词典中标注该术语所属的具体专业分类。例如,对于“层次分析法”这个术语,在运筹学、语言学中都有出现,但意义差别很大,可以通过术语的范畴加以区分,消除歧义。
(4)释义。释义是术语词典的核心内容之一,用于对术语知识进行深度的揭示和描述,如对其形状、构成、成分、特性、用途等进行详细解释。释义主要是描述性的,通过下定义、举例子、画图表等方式,对术语的内涵和外延进行描述,帮助用户了解术语的知识内容。对于不便用语言描述的定义,可以通过图片、表格等进行诠释,帮助用户掌握术语知识。
采用上述术语知识描述结构,可以形成人机两用的知识资源。它将传统的非结构化的文本信息转换为以词条为核心的树形结构,清晰显示数据结构各个部分的关系,为术语词典的描述提供了一个相对统一的模型,这就为术语知识的共享和术语词典辅助编纂系统的研制提供了相对稳定的框架。例如《膜技术术语辞典》的词条“镍铁蓄电池”:
镍铁蓄电池nickelironaccumulator;Edisonaccumulator
又称爱迪生蓄电池。碱性蓄电池的一种。负极为铁,正极活性物质为氧化高镍,以金属镍为导电材料,30%氢氧化钾水溶液为电解质。电池中反应为:
Fe+Ni2O3+3H2OFe(OH)2+2Ni(OH)3
工作电压约为1.3V;实际能量密度10~20(Wh/kg)。广泛应用于汽车、电车和实验室等方面和启动、牵引动力。
转换为树形结构表示,如图2所示。
四、系统总体设计
术语词典辅助编纂系统是进行词典编纂的技术平台,包含了术语收集、审核、更新维护等传统功能,实现无纸化的数字出版,提高术语词典的质量可控性。(章宜华2004,2007;Landau2001)借助网络环境下的海量文献资源和计算机自动处理技术,实现术语的半自动挖掘、推荐和更新,有利于缩短词典编纂周期、降低词典编纂成本、减轻专家工作强度、提高术语词典质量。同时,采用用户交互机制,使专家的主导作用与普通用户的广泛参与相结合,实现在线、实时的知识互动,将知识生产过程从封闭式的、少数精英模式扩展到开放的、普通大众模式,有利于增强词典的用户体验,形成良性的互动编制模式。
系统以流程管理为主导,以语料挖掘与术语计算、用户协同与交互为支撑,主要包括词条采集、词条编审、词典生成、词典更新、语料管理、语料挖掘、工作管理、用户协同与交互模块等。如图3所示。
(1)流程管理。包括词条采集、词条编审、词典生成和词典更新四个模块。系统中涉及词条采集人员和各级编审人员、学科专家,可以根据权限进行控制。词条采集主要是录入词条的所有信息,包括词形确定、范畴、拼音、外文、释义等,在词条提交到一审之前,采集人员具有添加、删除、修改词条的权限。词条编审包括一审、二审、三审,这三个级别是循环迭代的过程,本层次审核不合格的词条可返回上一级修改,也可在本层自行修改,但是三审(三审人员具有专家级别)后的数据不允许任意修改,作为最终信息存入术语词典数据库中作为词典脚本,经过人工校验合格后可自动生成术语词典批量出版。
(2)语料挖掘与术语计算。语料库是以一定的标准存放真实存在的语言材料,可采用专业文献数据库、学术网站等为基础制作语料库,为术语词典编纂提供资源。语料管理指对语料库中的语篇文本、例证数据、声音数据、图形文件等进行系统管理,对语料文件进行导入、转换、入库、导出、浏览、查询、编辑、备份存储及更新等操作,由于在术语词典数据库中的正文均以句子为记录单位,语料管理还可以对原始数据进行词频统计,为词目的确立提供可量化的数据基础。术语计算技术是术语词典编纂的重要技术手段。例如,采用机器学习方法,从语料库中自动发现新词,为编纂人员推荐新的术语语词;以可视化的手段监测术语的流通度,通过统计词频及语词的生命周期,推荐规范的术语语词作为词典立目参考,以可视化方式(纵轴为频率,横轴为使用生命周期)的形式显示出术语的使用规律;利用计算同义词模块自动识别词目词的同义词,供人工参考选取合适的同义词。
(3)用户协同与交互模块。术语词典编纂是一项复杂的知识工程,需要众多的专业人员参与。Web2.0技术为实现用户之间的交互和协同工作提供了便利条件。用户(专家用户或一般用户)可以为术语词典补充新概念、新术语,或纠正词典中的问题术语信息,经由编审人员审核后及时修改。用户协同与交互模块为用户提供了开放的平台,将大众智慧融入到词典知识的生产过程中。
术语词典编纂需要较为通用的知识组织模型,为词典编纂系统的设计提供框架。进而,将知识组织研究中的用户交互、动态更新、术语计算等理念引入到词典编纂过程中,设计具有半自动化功能的术语词典辅助编纂系统。这种设计将流程管理、术语计算、用户交互等进行适度的融合,有助于提高术语词典编纂的质量和效率。将现有的专业文献数据库作为粗语料库,方便编纂人员进行词汇选择、量化分析和知识抽取,提高工作效率。将词典数据按照知识组织的语义结构进行多维链接,形成多媒体表现形式,帮助用户理解不同概念之间的关系,提高知识学习效率。加强术语计算、科技语料库建设等方面的研究,形成面向术语的自动处理方法和技术,是需要进一步加强研究的课题。(张东,王惠临2010;冯志伟2008)
1.冯志伟.术语学中的概念系统与知识本体.术语标准化与信息技术,2006(1).
2.冯志伟.一个新兴的术语学科――计算术语学.术语标准化与信息技术,2008(4).
3.傅爱平,吴杰,李芸.汉语语文词典的词条结构模型.辞书研究,2009(2).
4.赫迎红.浅谈大型汉英词典的词条和义项设立.辞书研究,2006(2).
5.何瑞清.术语多元化、通俗化的限度与词典编纂的对策――以“法人”英译名为例.北京:术语标准化与信息技术,2011(4).
6.亢世勇,王兴隆,谢晓艳.我国计算机辅助词典编纂系统初步调查研究.辞书研究,2012(3).
7.赖茂生,屈鹏,谢静.知识组织最新研究与实践进展.图书情报工作,2009(2).
8.宋培彦.术语知识表示模型研究.情报理论与实践,2012(8).
9.王惠临,吴丹,石崇德.语言技术和知识技术――知识服务的重要技术基础.图书情报工作,2006(9).
10.王际洲.专业术语词典编辑的几点思考――以军事术语词典为例.科技信息,2010(32).
11.解海江,章黎平.词典编纂理念的二度转向.辞书研究,2010(6).
12.叶其松.术语、专业词汇与词典.辞书研究,2010(2).
13.张爱朴.从《新编英汉语言学词典》的编纂看专科词典学的重要性.辞书研究,2012(1).
14.张东,王惠临.关于建立中国国家科学技术语料库的思考.图书情报工作,2010(6).
15.章宜华.计算词典学与新型词典.上海:上海辞书出版社,2004.
16.章宜华.关于计算词典学理论框架的探讨.辞书研究,2007(6).
17.赵刚.略论国内大型汉英词典编纂和出版中的一些问题.编辑之友,2011(4).
18.LandauSL.TheArtandCraftofLexicography.Oxford:OxfordUniversityPress,2001.
19.ZengMarciaLei.KnowledgeOrganizationSystems.KnowledgeOrganization,2008(2―3).
(宋培彦,李静静中国科学技术信息研究所信息资源中心北京100038)
1、拼读记忆法
根据单词音标的音节记单词,即在学习英语单词时,我们首先从元音着手,找出所学单词有几个元音字母组合,分别发什么音,再根据辅音字母的发音,以及在单词中的拼读规则。这样根据音节去记字母,根据字母去记单词。例如:December一词中,有三个元音字母,都是e,前一个字母发[i],率二个发[e],最后一个e与r构成字母组合er发[],因此,我们就可以这样去记De[di]---cem[sem]---ber[b]December[di'semb]
2、分类记忆法
将同音词、同义词、反义词等收集在一起,同时背记。
①同音记忆,即同音异形词,如:father(父亲)---farther(较远的);son(儿子)---sun(太阳)等等。
②同义词记忆,如:ask,beg,request,hope,wish,want等等。记忆同义词时,还要记住它们的区别。
③反义词记忆,如:take---bring,clever---dull,close---open等等。
3、联想记忆法
就是通过原有的信息产生联想,形成一串一串的记忆,如:由coat相到所有衣着类的单词;由orange想到水果类及颜色单词;由rice想到食物类的单词;由book想到文具类单词;由bike想到交通类单词;由Monday想到星期、月份、年、季节等单词;由hand想到有体各部位器官;由can想到所有的情态动词及其用法等,如此种种。
4、构词记忆法
掌握一些构词法知识,可以大大地增加自身的词汇量。英语构词法主要有以下三种情况:
①派生法。如常用的前缀in-,im-,un-,dis-等表示否定含义:possible---impossible,like---dislike;后缀-er,-or,-ist等表示人:teach---teacher,visit---visitor;后缀-y,-ly,-ful等表示形容词词性:cloud---cloudy,use---useful等等。
②复合法。如:black(黑色的)+board(木板)blackboard(黑板),class(班)+room(房间)classroom(教室)等。
③转化法。如:water(n.水)water(v.浇水),lift(v.举起)lift(n.电梯)等。
5、词组记忆法
在英语中词组的使用比较广泛,很多都是固定搭配,只有少数的单词跟不同的单词搭配构成不同意义的短语,这就需要善于积累,掌握其不同词义的不同用法。如:takeaway,takeback,takein,takeoff,takeover,getup,getoff,getinto…;letin,lettown,letout,letoff等等。
6、归纳对比记忆法
如在讲授序数词时,把阿拉伯数字1-13写在黑板中间一列,让学生将相应的基数词写在左边,右边相应地学一个序数词就写一个序数词,并在旁边写出相应的缩写形式。
one1first1st
two2second2nd
three3third3rd
four4fourth4th
five5fifth5th
…………
然后在对比中找出规律,进行归纳:在基数词与序数词的对比记忆中,只有几个特殊的序数词,如:first,second,third,fifth,twelfth,twentieth….ninetieth,(即从二十起至九十整十的序数词改y为i加eth构成序数词),而其他都是在基数词后加-th。
7、朗读记忆法
8、勤查词典法
关键词:搜索引擎;推荐;系统
基于社会计算的个性化推荐系统的搜索引擎是系统开发的一个重要环节,该搜索结果质量直接关系到系统的性能,从而直接影响到系统的整体性能。本系统中解析的文档类型以html文档为主,采用Lucene搜索引擎,独立于运行平台的方式,实现了文档的解析和索引的创建。
1Lucene搜索引擎简介
1)Lucene
Lucene是一个出色并且是开源的全文搜索引擎。他并不是一个完整的全文检索应用,但是它提供了大量的API,可以方便能够高效快捷地地对全文创建索引,最主要的是,他可以对现有的在各种各种的系统增加全文检索的功能,官方也一直维护、更新版本,使用越来越方便,深受广大编程者和用户的青睐。
Lucene是一个高效的、可扩展的全文检索库,仅支持纯文本文件的索引(Index)和检索(Search),并不处理从其他格式的文件中抽取纯文本文件,或从网络中抓取文件。简单地说,Lucene实现两个功能,分别是索引和检索。索引所做的工作是为各种各样的文档构建Lucene所能够识别的索引文件。
Lucene作为一个非常优秀并且开源的全文搜索引擎,不仅性能高,架构清晰,扩展性强,而且其建立索引后的文件格式也独立于应用平台,从而使索引文件能够跨平台共享,对任意可转换为文本格式的数据都能够进行索引和搜索。例如html网页、本地中的ppt,txt,pdf等等都可以对其建立索引。
首先,Lucene集成了多种文档解析器,能够对大部分主流文本文件如:html,pdf,MSWord,TextFile等等进行解析,抽取纯文本内容。由于Lucene只能索引纯文本,所以必须借助于上述各种不同功能的解析器对各种不同类型的文档进行解析。
然后,使用Lucene的分词器(Analyzer),对提取出的纯文本内容进行索引,并生成索引项,以供做搜索之用。
2)引擎结构
Lucene搜索引擎对系统的要求不高,既可以运行在Windows系统上,也可以运行在Linux系统上。搜索引擎使用的一般是集中式。把多个服务器的网络资源通通下载到本地,目的是为建立索引和文本搜索做准备,这就是集中式的处理方法。如果按照按结构分,Lucene引擎结构可由搜索器、索引器和检索器等组成。
搜索器就是网络机器人(网络蜘蛛)。利用这种爬虫程序,在遵从机器人排除协议的前提下,从某个网页开始,提取URL网址,如此循环,不断地提取到新的URL网址,同时取出相应URL的资源。
索引器的则是利用下载的到的各种网络资源,提取各种资源的索引项,为生成文档库的索引表做准备。
3)解析网页和索引入库
把网页中的元素标记(Token)及其标记之后的内容提取出来,目的的是利于入库,这就是网页的解析。一个字段都要有一个Token与之相对应。可以理解为此字段的内容就是Token的内容。
2Lucene分词器
1)Lucene分词简介
lucene将关键词出现频率和关键词出现位置分别作为词典文件(TermDictionary)、频率文件(frequencies)、位置文件(positions)保存。其中词典文件不仅保存有每个关键词,还保留了指向频率文件和位置文件的指针,通过指针可以找到该关键词的频率信息和位置信息。
Lucene特点是关键词是按字符顺序排列的,其内部没有集成使用B树结构,所以可以用二元搜索算法快速定位Lucene的关键词。
Lucene中也使用了field(域)的概念,用于表达信息所在位置。如标题、内容、url等等。需要指出的是这些域(field)是可以自定义设置的。在索引文件中,每一个field(域)的信息也记录在词典文件中,每个关键词都有一个field信息,因为每个关键词一定属于一个或多个field。关键词没有在field(域)中出现,就意味着用户想要找的内容没有出现在数据库中。
为了减小索引文件的大小,Lucene对索引使用压缩技术。首先,对词典文件中的关键词进行了压缩,关键词压缩为,例如:当前词为“广东省东莞”,上一个词为“广东省”,那么“广东省东莞”压缩为。
2)Lucene分词原理
3IKAnalyzer分词器
1)IKAnalyzer分词简介
对信息进行索引前,需要要对关键词进行分词。英文使用空格和标点来分隔单词而中文使用表意文字,不能通过空格和标点来进行分词。Lucene自带的分词器,有StandardAnalyzer,StopAnalyzer,SimpleAnalyzer,WhiteSpaceAnalyzer。这些分词器要么是单字分词要么采用停用词分词,要么采用简单的分词,要么是按空格分词。
但是,它们并不能有效地解决中文分词的问题。目前中文分词算法工具包大致包括paoding、imdict、mmseg4j、IK。其中最常用的是IKAnalyzer,下面我大致介绍一下这个中文分词器,结构图1所示。
2)IKAnalyzer特点
IKAnalyzer支持多子处理器语言分析模式:中文、数字、字母,并兼容日文、韩文。它采用“正向迭代最细粒度切分算法”的算法,支持细粒度和最大词长两种分词方式,速度最大支持80W字/秒,即1600KB/秒。此外,它扩展lucene的扩展实现,采用歧义分析算法优化查询关键词的搜索排列组合,提高lucene检索命中率。同时,它具有较小的内存占用,优化词库占有空间,用户可自定义扩展词库。
IKAnalyzer由org.wltea.analyzer.IKSegmentation和org.wltea.analyzer.lucene.IKAnalyzer两大主要类组成,其中,org.wltea.analyzer.IKSegmentation是IK分词器的核心类,真正分词的实现类。而org.wltea.analyzer.lucene.IKAnalyzer则是IK分词主类,基于Lucene的Analyzer接口实现。
4基于Lucene的IKAnalyzer分词器
1)paoding、mmseg4j和IKAnalyzer
目前流行的几大开源分词器主要有:paoding、mmseg4j、IKAnalyzer,它们三个都是基于JAVA语言开发的,各有优劣,具体如下:
mmseg4j:有两种分词方法,Simple和Complex,目前complex1200kb/s左右,simple1900kb/s左右,但内存开销了50M左右。采用MMSeg算法,代码复杂度是2500行左右代码。有英文文档,原理比较简单。有自带搜狗的词库,支持自定义词库,不支持自动检测。自带词库16W个。Lucene和solr的支持:支持Lucene2.4、solr1.3。
IKAnalyzer:每秒80W字。采用正向迭代最细粒度切分算法,代码复杂度是4500行左右代码,有一个中文使用手册,支持自定义词库,不支持自动检测。自带词库27W个。
根据上面介绍,结合本系统特点,本系统采用基于Lucene的IKAnalyzer分词器。
2)自定义同义词分词器
Lucene分词机制:索引过程和查询过程都用到了一个关键工具分词器analyzer。它将要被索引的内容以流的形式读入,经过词语切分、过滤干扰词等一系列处理,最终输出一个语汇单元流、每个语汇单元携带了一个文本值和它的一些元数据,原文本从起点到终点的偏移量、语汇单元类型和positionincremen。
同义词索引原理:索引器将语汇单元写入文件时会丢弃每个语汇单元的起点偏移量和终点偏移量。位置增量是语汇单元携带到索引文件的唯一附加元数据。这个值的意义是当前单词与前一个单词的位置偏移量。当这个值为0是表示当前单词与前一个单词被索引到同一个位置上。但是Lucene对中文语言处理能力十分有限,无法中文语义分词只能将一句话机械性的分成单字或双字。例如:用单字分词会将“我来自广东”切分成:“我”“来”“来”“自”“广”“东”。显然,这种情形为每个字添加同义词索引是没有意义的因此需要一个功能更强大的中文分词器来支持。
本系统采用堆栈的形式来保存同义词的词组或单词。如(“中国”,“大陆”),(“我”,“咱”)等等都可以是同义词。自定义同义词分词器使用四个类来实现。
MyDefinedSameAnalyzer类主要是加载的搜狗中文分词器。使用栈来定义过滤器是MyDefinedSameTokenFilter类。DefinedSamewordEngine类是一个接口,使用接口有利于程序的扩展。DefinedSimpleSameword类是定义同义词字典,并判断如果有同义词就返回true
3)自定义停用词过滤分析
在关键词处理过程中,有可能会经常出现没有意义的词。如,“是”,“来”等等。除此之外,停用词分析器StopAnalyzer也已经把没有意义的英文单词收录到停用词表中。默认情况下,这个表被用来滤词用户输入关键词中的词汇,还可以过滤掉一些特定字符,如&,*等,也会把英文的大写字母自动转换成小写字母。
还有就是,当搜索系统需要屏蔽掉一些用户输入的中文敏感词的时候,就得把敏感词自动的过滤掉。这个时候就得使用lucene强大的停用词分析器。由于Luene自带有停用词分析器StopAnalyzer,这使得要过滤掉停用词就变得非常简单。而且使用Lucene3.5的版本,也支持中文分词。
自定义一个停用词表就可以过滤掉自己设定的中文或者英文的敏感词。默认情况下,Lucene会把系统自带的英文停用词加载在停用词分析器中。TokenStream读流属性中的数据即读出数据。另外,停用词分析器StopAnalyzer自动把数字给过滤掉了,所以要实现数字的搜索需要经过特别的处理。具体的处理过程可以参考GxjtController类的searchcont()函数的代码部分。
为了实现该功能,搜索的关键词要先经过过滤器处理,再经过同义词的处理。
[1]冯斌.基于Lucene小型搜索引擎的研究与实现[D].武汉:武汉理工大学,2008.
[2]杨馥显,刘嘉勇.基于JSP的数据库开发技术研究[J].通信技术,2011,44(3):51-53.
关键词:高兴;快乐和开心;对外汉语;同义词教学
在汉语本体研究中,语言学家从不同的角度对同义词进行过研究,有关于同义词定义界定的研究,有关于同义词辨析方法的研究,也有关于同义词和近义词区别的研究。(刘叔新,1987)认为,同义词,就是指词的意义相同或意义相似(近)的词。(石安石1961)认为,同义词,正确地说,应该是概念相同但词义有所不同的词。而在语言学界把同义词的界定分为广义和狭义,广义上的“同义词”是意义相同或相近的词,这包括等义词和近义词;而狭义的“同义词”仅指意义相近的词,只包括近义词(黄伯荣、廖旭东,1999)。
一、本文同义词的界定
同义词是现代汉语词汇中一种非常特别也十分重要的词,无论在汉语本体研究或者教学中还是在对外汉语词汇教学过程中,同义词都有着重要的作用和意义,历来同义词的研究和教学也是一个富有争论的热点话题。本文采用《现代汉语》第五版黄伯荣、廖序东先生的定义作为标准和参照:意义相同或相近的词组成的语义场叫做同义词场,同义义场中的各个词叫做同义词。根据这个定义,我们可以知道,只要有一个义项相同或者相近,我们都可以把它们称为同义词。如“高兴”、“快乐”、“开心”这三个词,在“一种兴奋的、愉快的感情”这个义项上可以处于同一同义义场,我们可以把这三个词归类为同义词。
二、“高兴、快乐和开心”句法、语义分析
“高兴、快乐和开心”这三个词都可以表示一种高兴、愉快的情感,在汉语中很多情况可以通用,但是对于留学生来说,要掌握好这三个词的用法十分困难。首先我们来看《现代汉语词典》(第5版)中对这三个词的定义:
【高兴】
①形:愉快而兴奋。听说你要来,我们全家都很高兴。
②动:带着愉快的情绪去做某件事;喜欢。他就是高兴看电影,对看戏不感兴趣。
【开心】
①形:心情快乐舒畅。大伙儿在一起,说说笑笑,十分开心。
②动:戏弄别人,使自己高兴。
【快乐】形:感到幸福或满意:快乐的微笑;祝您生日快乐。
(一)句法上区分
《现代汉语词典》(第五版)对“高兴”有两种词性标注,一种是用做形容词,一种用做是动词;对“开心”标注也是两种词性;而“快乐”只有一种词性。动词的语法功能是做谓语和状语为主。作为动词的“高兴”表示的是情感、意向的心理活动或心理状态,称为心理活动动词。“高兴”通常后面会有具体的事情或者一次经历。如:“他就是高兴看电影,对看戏不感兴趣。”
这个句子,“高兴”修饰后面的动词“看”,表示一种心理活动状态或者是一种情感的使然。从语法上来说,作为动词的“高兴”后加动词做状语,修饰后面的动词。如:小明高兴看书,对上网没有兴趣。
“开心”做动词的时候带有一种贬义色彩,带有一种不好的意味,蕴含一种调侃的语气。如:不要拿他开心了,他什么都不知道。
“开心”用做动词,也是做不及物动词,后面不能带宾语,一般加“了”或者“的”这样的语气词,表示一种语气,不像“高兴”后还有动词,动词后面还有宾语成分。而“快乐”就没有动词这一词性。
所以从动词的角度来看,就非常容易区分,“高兴”指的是一种好的事情或者经历,而“开心”做动词后面经常指的是一些不好的事情或者经历,通常带有一种调侃的语气,“快乐”不能用作动词。
再看三个词做形容词,形容词的功能就是充当定心结构的定语、谓语或者补语。这三个词都可以做定语,如:
他不抽烟,不喝酒,偶尔遇上高兴的事情,便喝几口啤酒。
每周两次与家人聚会,也是最开心的时刻。
幼儿期是各种能力发展的关键期,成人要为幼儿创设能充分表现自己和体验成功快乐的机会与条件。
例句都是做定语的情况,似乎不能区分它们之间的不同,彼此之间都可以互换,也就是说从语法角度形容词词性上很难区分它们的不同,因为这三个后都可以接名词做定语,表示一种好的情况或者事情。所以区分这三个词,需要从语义角度进行细致分析。
这三个词除了可以用做动词、形容词,还有可以用做名词的情况。
生活处处有快乐,让我们一起寻找快乐、探索快乐、拥有快乐吧。
我不想让别人看见我的痛苦,只想让他们看到我的快乐。
上面这些句子中,一般不用“高兴”和“开心”,经常用“快乐”,这些句子中的“快乐”都是用做名词,这些句子“快乐”表示一种抽象的东西,有一种名物化的趋势。
(二)语义上分析
从语义上,这三个词都可以归为“高兴”类,表示一种兴奋喜悦的情感。根据心理学理论,高兴是“盼望的目的到达后继之而来的紧张解除的情绪体验”。留学生也会经常用到这三个词,也会经常出现错误,语法上很好区分,而真正在语义上的不同,是导致他们出现错误的原因。
在《(汉语水平)词汇等级大纲》中“高兴”属甲级词,“快乐”属乙级词,“开心”属于丙级词汇。留学生最先学习的是“高兴和快乐”,而在汉语实际的运用中也是“高兴和快乐”比较常见。但是,在学习过程中,留学生经常会出现下面这样的偏误:
那时候,我一边快乐,一边担心。(高兴)
我对听流行歌曲的看法是赞同的,因为音乐可以给人带来高兴。(快乐)
见到你我很快乐。(高兴)
他认为经商是一种很好的职业,因为经商可以过正经而快乐的生活。
他们很逗,总是用活泼快乐的心情面对人生。
他经常露出不高兴的表情、不理采别人、讽刺、挖苦别人。
他脸上流露出高兴的神色。
“开心”这个词属于丙级词汇,对留学生来说,接触的比较晚,更多的出现一些口语交际中,大部分用于过去发生的一些事情,对过去的事情一种心理感受。
在公司发展中最开心的一件事情是什么?
每次因为父亲的工作调动而转学的时候就是我最开心的时候。
上面这些句子,“开心”表示是对过去的事情一种心理的感觉,现在回忆起来心情很好,当然这种感觉可以是短暂性的也可以是持续性的。
三、偏误的分析和教学策略设计
我们可以根据留学生的习得情况进行分析,然后进行教学方法策略的设计,更好地让学习者,尽快掌握学习好这三个词的用法,能够正确的运用到实际交流中去,真正学会它们。
学习者混淆这些词语的原因是多方面的,其中一个主要原因可能他们根本没有意识到这些词语存在语义差异,这个才是关键点。我们来看下面的例子:
我很寂寞的时候,常常想起我很高兴的家庭。
现在,他没有以前那严格了,一般都是高兴的父亲。
根据“高兴”和“快乐”的句法分析和语义分析及出现的语言环境,我们可以在教学过程设计一些教学策略和方案。
首先上,在意义上认识这两个词最基本的意思,有一个感性的认识和理解。第一步我们可以给出这两个词在汉语中最常见的例句用法,在例句中去理解和体会:
快乐的生活祝你生日快乐很高兴认识你高兴的样子
从意义和常见的用法上分析了解了“高兴和快乐”的区分之后,我们来看“开心”,“开心”对第二语言学习者来说是一个很晚才学习的词,同样我们可以给出一些关于“开心”的常见搭配短语:
玩得开心一件开心的事情开心的时刻
那是她十余年来最开心的一次。
赛后她得意地说:“这是我打得最开心的一场球。”
这些句子都是表示发生在过去的事情,所以我们在教学过程中告诉学习者,一般表示发生在过去的一件事或者一种经历用“开心”。
基于上面从句法、语义和语用上对“高兴、快乐和开心”三个词进行了一些分析和对比,同时结合汉语同义词辨析的方法和角度,我们可以在教学中设计一种教学方法模式:
(二)句法成分上:三者都可以做形容词,“开心和高兴”还可以做动词,“快乐和高兴”还可以做名词。
四、结论
本文对“高兴、快乐和开心”从基本的语法、语义和语用等方面进行了一些大致的分析和比较,得出了一些基本的教学和习得方法。要想更好的教好汉语词汇,让学习者更好更快的学会这些同义词的用法,掌握它们之间的区别,需要将本体研究和对外汉语教学实践结合起来,做到相互融合,本体研究给教学提供理论支撑,教学实践中发现一些新的问题,再运用本体的知识去解决,最后做到相得益彰,真正促进对外汉语词汇教学的发展和进步。
[1]黄伯荣,廖序东.现代汉语[M].北京:高等教育出版社,2011.
[2]孙德金.对外汉语词汇及词汇教学研究[M].北京:商务印书馆,2006.
[3]周琳.CSL学习者“高兴类”形容词混淆特征及探因―以“高兴、快乐、愉快”为例.
外来词、古词与词义的保守性英语词汇具有“世界性词汇”
的特点。这主要表现在它的发展过程中向其它语言直接借用了大量词汇,其中%以上的英语词汇是从拉丁语词汇派生或直接借用来的旧J。除此之外还从罗曼语族(如法语)中借用了大量词汇。每本法律英语词典都收入了拉丁语和法语词汇。如(简明英汉法律词典)(1993)第l页就有14个拉丁语词汇和收稿日期:2002一10—28/个法语词汇。这足见古词和外来词在法律英语中所占的比例,所起的作用。
.1外来词自儿54年英国开始了金雀花王朝后,法国人就成了英国统治者.法语则成为英国官方语言,并在宫廷、法院和学校中广泛使用。仅在1250一1400年间大概就有10000个法语词汇直接进入(10andirectly)英语词汇中,其中75%一直沿用至今”J。这一时期具有代表性的法律词汇有:
法庭,审判台),assize(巡回审判),巡回法庭),pIea(抗辩),suit(诉讼,讼案),原告),defendant(被告),judge(审判员,法官),advocate(辩护者),attorney(律师),法案),petition(请愿),complaint(控告),in—审讯),summon(传票),hueandcry(追捕犯人时的叫喊声,通缉令),indictment(告发,控告),jury(陪审团),juror(陪审员),panel(全体陪审员),felon(重罪犯),evidence(证据),证词)’bail(保释金,保释人),ransom(赎金),裁决),sentence(宣判),decree(政令,法令),award(判决,判决书),fine(罚款),因犯罪而遭没收的东西),punishment(惩罚),prison(监狱),pillory(颈手枷),sue(控诉),辩护),implead(控告,起诉),accuse(控告),de—宣誓证实),arrest(逮捕).warrant(逮捕状,搜查令),imprison(监禁),convict(宣判……有罪),amHce(惩罚),arson(纵火),larceny(偷窃),adujtery(通奸),sIander(诽谤),Iibei(诽谤罪),innocent(无罪)等。
①Thisisa“∞i(借自拉丁语)contract.这是一个准合同。
②出,葫,如”f(借自法语获得的这种判决就是人所熟知的对被告的不应诉判决。
古词法律英语古词是指古英语时期(公元—1100年)和中古英语时期(公元1100一年)的英语词汇,而在这两个时期从拉丁语、法语和希腊语中借用的外来法律词汇70%仍沿用至今。一些词汇在现代英语中,尤其是在现代英语口语中已不再使用,但在法律文书,或正式的司法场合仍在使用。古词ye是的复数“你们”,在普通英语中已经不用了,但在法庭开庭时仍沿用hearye“静听”(宣读、审判),或用古词。yez“静听”。这里的hearye实际上相当于现代英语中的listenup!古词卵th相当于现代英语中的say。这在普通英语中早已不用了,但在法庭上仍用sayeth。如:
。t相当于现代英语中的“宣誓口供人没有任何要说的了”。
中古英语中he一,there_和where_可以和表示方位与原因指向的词构成复合词,以表示加强和确定之含义。如:古词,thereunder(underthat),,wherefore(why),herein(inthisdocu—,therein(inthatclause)。因此,莎士比亚笔下的句子“whereforeartthouRomeo”就不是“whereareyou,Romeo”,而是“Oh,,WhymustyoubeRomeo”
中古英语词said(aforeSaid)在法律英语一般用作定冠词(the)和指示代词(this或幽at)。
.(彼得打算存一笔钱。这笔钱的年利率是10%。)句中的said可以用the或来代替。这种用法明显地与普通英语的用法不同。
助动词与词义的权威性普通英语的助动词do和shaIl在法律英语中具有某种程度的古语含义,赋予了独特内涵,使法律英语词句更具权威性。
.助动词do在普通英语中,一般用于问句,而在法律英语中只用于肯定陈述句,但并不象普通英语中那样含有强调或对比的含义。
所表示的是紧跟着的动词所产生的法律概念或所修饰的法律关系,或者相当于普通英语中的特此),并暗示这一行为动作将会实际履行。下面的例旬就是很好的说明。
①WethepeopleoftheUnitedStatesdoo卜肌我们美国人民为美国制订和确定了这部宪法。
②ThestateofCalifo『njadoenaccasf。l—.加州依下例规则制定法律。
③我承诺诚实地向警察报告事实。@)ldomominatemrhusband,BlackSmi出我特别指定我的丈夫布莱克·史密斯作为我遗愿的执行人。
这四个例句中的do均无实义,且含有古英语的特质。例句①一②中的do就只表示其动词后的法律概念更具权威、更具神圣性。例句③一④中的do表示说话者郑重其事,并且一定能执行和完成这个动词所指的内容。
.在普通英语中shau是典型的表示未来的情态动词,传统语法规定shaH只能用于第一人称,否则用will会更合适。在美国英语中一般不用shall表示将来,几乎已被废弃,所以表示将来的唯一情态动词只能用will。在法律英语中shau并不表示将来,而有着与普通英语完全不同的含义。现分别解释如下:
①shall表示某种命令或某种法律义务,相当于普通英语中的must“必须”。如:
这里所用shall并不表示对将来事件的预测,而是设定了被告人必须进行登记的义务。
使整个句子更具法律权威性。
③shalI可表示法律上的正式“宣告”、“宣布”。如:
这部法律被正式宣布为加利福尼砸州的刑法典。
③shall可用于表述合同条款.表述~定要做到的事。表示“一定会”(promiseto)或“将会”(willortobeto)。
…...出版商应当预付作者稿酬,这笔稿酬是按合同规定的总稿酬中的一部分。
总之,sha】l在法律英语中的含义并不一定就限于这三种情况。弗雷德里克·保尔斯认为被广泛运用于法律英语的真正原因是被看作是具有法律权威特征的一种象征。…法律术语与词义的精确性法律术语(TermsofLegalArt)是法律英语最突出的特点之一。法律术语一般指某些词汇或词组只在法律这一特殊领域或法律职业中使用,而且这些词汇或词组的含义约定俗成,不同于普通英语(OrdillaryEn91ish),具有相对的稳定性。法律英语中的“法官顾问”
源于拉丁语)沿用至今,而不说。
其目的主要是为了保持这个词义在法律英语中的“原汁原味”和精确。美国法律语言学研究权威梅林可夫认为法律术语是法律语言中一小块相对精确(precision)的区域【4J。就这一点我们可以选用《英汉双解法律词典)【51中的词目解释加以佐证。
①cy—pre’sdoctrine:”尽可能近似原意法则”
普通英语解释为:
。pu‘.acourtcanapplythefun如一种规则,如慈善机构将资金用于一个原本并非是它打算的目的,法院可将这笔资金尽量靠近慈善机构原来打算的目的。
②precedent:“判例,先例”
普通英语解释为:(something,,whichbash印,早些时候发生的某事,如判决可作为现在应做什么的导向或指南。
③subrogation:“代位权”
山erpers。
。n’sliabiIities)一种法律原则,某人取代另一个人,取得那个人的权利并为他的债务承担责任。
从词典中引证的三个词目说明法律术语言简意赅,只需一个词或几个词就能准确无误地表述一个法律概念。法律术语来自一般用语和习俗。如:silk专指“英国女王的法律顾问”。
美国法律英语中的“祖父条款”或“不追溯条款”。法律术语不同于科技术语。法律术语是由权威的法院或立法机关或法学家阐述界定的。如income(收入)是一个关于税收方面的专用词,但它的内涵在法学界中,尤其被法院广泛地界定和阐述了很多年。司法判例和成文法的解释将会使法律术语更加精确。
普通英语与法律英语的词义关系在英语语言的发展过程中,词义的演变十分复杂。总体来说英语词义是在“共时性变化”
和“历时性变化”(di—“ges)的交替变化中发展演变。法律英语的发展不可能脱离普通英语的发展。法律英语词义自然而然是从多义的普通英语词汇中分离出来的。有的词义具有特色性很强的法律英语词义,而独立于普通英语。由于英语词汇在其发展演变过程中借用了大量外来词,因而也出现了大量的同义词。
一词多义与同形异义英语中多义词(polysemicwords)占绝大多数,而单义词(monoSemicwords)是极少数。一词多义的根源是词义的概括性和词义的演变”j。法律英语词义就是这样从多义词中分离出来的。如:
。monyms)。我们知道同形异义通常是指两个或两个以上词的形式相同而词义不同的语言现象”J。如:
熊和bear(;.)忍耐。若按这一标准来划分就根本不存在“同形异义法律词”。特尔斯马提出这一新观点,不外乎强调法律英语词的专业性和相对普通英语词义的独立性、稳定性。阻下这些例子足以说明他的观点:
普通词义行动气愤避免考虑简洁的延续仪器箱子移动通知政党恳求祷告句子服务法律词义诉讼加重罪行撤消对折诉讼案件摘要诉讼延期法律文件案倒动议案解约通知当事人抗辩诉讼法庭判决传票送达不论是强调一词多义,还是主张同形异义.二者都说明法律英语词义是普通英语词义的一部分,但又具有自己相对专业特色和稳定性。
.2同义词同义词(synonyms)通常指的是部分同义词,也就是基本意义相同或相似的词”J。在任何一组同义词中,法律英语文体一般选用释义严谨,词义稳定的正式书面用词。下面是一组同义词的对比分析普通英语词(奉旗语)法律英语词(外来词)中文释义…dapp—mately太概要求哪mence开始建筑物‘pn。r较早邮【lte帅inate终止㈣e续起赠送促进印Pdse通知涉及需要示范停止使用咖一。ym朋t工作法律语言是严肃语言,重点在于陈述事实与细节,阐明法律概念和法律关系。所以即便是在法律英语中有多个同义词的情况下,法律文书还是尽可能少用同义词,以避免用词多样化所引起的歧义。比如:我们可以邀请朋友到我家(residence),然后问他对我们新家(domi—看法如何。在法律上只认定一个居住地的事实。因而没有必要用不同的词来表述。再说法律英语中的同义词仍有约定俗成的差异。必须根据上下文慎用同义词。比如:
美国宪法中的“信赖条款”),就不可用或fullcredit取代。sufficientconsider—对价)就不可用adequatec0璐ideration(等值回报)取代。
法律英语词汇中美国与英国语言的差别在英美司法体系发展变化的过程中,美国的语言发展已有自己的特色。18世纪美国独立战争后,美国人民的民族主义也表现在语言方面…1。韦伯斯特等人积极提出确立“美国语言”的主张,并于1828年编辑出版了<美国英语词典>。至此,美国语言开始一条独立发展之路。英美语言与英美法律交织发展的过程中,形成了法律语言,但英美法律语言仍存在差异。
.1语汇空缺语汇空缺(1exicalgaps)是由于语言的民族、地域、历史、政治等因素深刻的内在联系,使一种语言的某些词汇在另一地域的另一种语言里找不到对应的词。英国的司法体系是以王权为基础发展完善的,而美国的司法体系是在以议会为中心的基础上形成的联邦与各洲两级司法体系,加之各自的法律文化传统不同,因而不可避免地出现法律词汇空缺现象。
①美国法律英语词汇,英国法律英语词汇空缺。如:assembly(议),assemblyman(议员).总统),vice-president(副总统),presi—总统的),congress(国会),senator(参议员),lynch(私刑),Kukluxklan(三K党)。
②英国法律英语词汇,美国法律英语空缺。
如:Lords(上院),Lord(上院议员),议院中的大法),民诉法).courtofKing’sBench(王室法院),Privycouncil(枢密院),suit。r(审判),总督),chancellor(大法官)。
.2词汇的拼写差异美国法律英语词汇的简化现象是美国英语区别于英国英语的主要特征。这种简化现象一是通过读音与拼写同时变化的,如:copper:
英)警察;cop:(美)警察。二是只有拼写变化,没有读音变化。如:honour:(英)承兑;h。rlor:
美)承兑。法律英语中不同拼法的英国英语与美国英语常用词汇对照如下:
英国英语美国英语中文释义日doptor收养人印ce『a∞中tor承兑人哪tackn。wledgm印t债务承认人。quecheck支票。pperc。p警察def咖def蛐被告,辩护律师。fknse罪过,犯法草稿。草案。pr%’
诉讼业务呷即‘】udgment裁定,判决锄moprogr锄程序.3词汇的语义差异法律英语词汇的语义变化主要表现在同一概念在英国英语和美国英语中分别用不同的词汇表达。
①同一概念,英美英语中用不同的词汇表达。如:
中文释义英国英语美国英语慈善信托cha^tabletrustcb撕tablecQrpor帕大监狱pemt饥na珂黑手党m曲M甜执法官lawm姐流氓h00dlumga“舒有限责任公司律师费barrister,sk咖②同一词汇,英美英语中有不同的解释。
如:
英语词汇英国英语美国英语地方法规公司章程一·at;on巴律师协会律师协会—te上院参议院曲乜血n议会议员国会法规专家一海事法院执行法官法院执行法官“eut廿l曲t副总督副州长。unsekr参赞,顾问咨询律师盯7pls面大法官法庭衡平法庭ⅫGene同副检察长副司法部长检察总长司法部长e㈣营业瓿(资壹,货物)周转金小结法律英语词义的保守性、权威性和精确性是由多方面原因交织而形成的。一方面法律本身要求用词严密准确,才显示出法律的神圣和权威性,另一方面是由于拘谨的外来词和语义约定俗成的古词、术语长期沿用,加强了这些词汇的神秘感和权威性。司法领域里循环沿用同一法律词汇的另一个原因是为了交流表达简便,在法律文件起草,法规解释和调查取证中更加经济。于是,几十年乃至几百年前生硬的法律词汇和术语得以延续,而且事实上一字不改。
[关键词]记忆理论认知有意再现分析器词典
一、引导学生明确记忆的目的,加强有意记忆
按照记忆的目的性、意识性的程度,记忆可分为有意记忆和无意记忆两种。有意记忆是具有自觉目的、采取一定的记忆方法,在必要时还要做出某些意志努力的一种记忆。无意记忆与有意记忆恰恰相反,它是没有自觉目的、没有采取任何记忆方法,也不需要做出任何意志努力的一种记忆。学习英语,记忆单词,主要运用有意记忆。因为对记忆的材料有无明确的目的,对记忆的效果有直接的影响。目的越明确具体,记忆的效果就越好。这是因为目的的明确具体,能提高大脑皮层有关区域的兴奋性,兴奋的神经组织蛋白质结构发生变化,能使建立的暂时神经联系得到巩固,留下的“痕迹”越加深刻。根据这一原理,笔者在英语教学中注意引导学生抓住学习重点,要求他们每次课都需找出重点单词、重点句型、重点段落,并有意地反复学习、加强记忆。通过加强有意记忆,学生们普遍反映记忆英语单词、句型和课文比以前容易多了。
二、要求学生理解课文,加强理解记忆
在有意记忆中,按照记忆方法又可把它分为机械记忆和理解记忆两种。有些材料,它们本身是有意义的,反映了客观事物的内在联系。我们对材料的内容进行充分的研究,了解它们的本质和特点,通过理解去记忆它们,这种记忆方法叫理解记忆。理解记忆是靠联想去记记忆材料的。有些材料,它们本身没有什么内在联系,或者材料本身有一定的内在联系,但我们对其意义不甚理解。例如,年代、人名、地名、数据、公式等。对这样的材料,只能“死记硬背”,这种记忆方法叫机械记忆。机械记忆是靠重复去记忆材料的。实践证明,在学习中运用理解记忆的原理去识记材料可以记得快、准确和牢固。而运用机械记忆的原理去记忆材料,既费劲而且不巩固。这是因为理解是记忆的基础,理解记忆能明确目的,增加记忆的兴趣,强化记忆的意志。因此,在课文教学中,笔者要求学生尽量理解课文的内容,找出课文的层次结构,在理解的基础上对课文进行有意记忆。这样,被记忆的材料就更牢固、不易遗忘。
三、引导学生在记忆过程中,做到“认知”和“有意再现”相结合
四、引导学生运用多种分析器来参加记忆
五、引导学生借助词典,利用联想手段强化词汇记忆
笔者认为,对于那些认为“英语单词太难记了”的学生而言,采用同义词/反义词词典强化词汇记忆的方法—语境联想记忆法和专题联想记忆法比较管用。类属词典和同义词词典/反义词词典一般都是按照主题编排的,同一主题或语义场的词汇都会汇聚在一起,通过各种语义关系构成联想的网络。这两种方法都基于联想手段,通过联想网络将词汇牢牢地维系在一起,从而达到强化记忆的效果。这里介绍两种借助同义词词典记忆词汇的方法。
六、要求学生及时复习,与遗忘作斗争
[1]伍谦光.语义学导论[M].长沙:湖南教育出版社,1997.
[2]陆国强.现代英语词汇学[M].上海:上海外语教育出版社,1983.