开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇文本分析,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词:《日常用品》词汇句子修辞语篇
《日常用品》塑造了代表传统文化的母亲和代表现代风格的女儿的不同形象,围绕如何理解和继承祖传的被子展开情节,反映了由种族问题引起的家庭矛盾。小说借母女冲突表达了这样一个主题:继承民族文化传统的意义在于深刻地认识理解其文化内涵,而不是浮于表面、流于形式。小说体现出作者难以释怀的黑人情结和沉重的焦虑,这也是作者自我意识的彰显。
一.词汇方面
1.形容词层面
文中第十三段是形容词所占比例最高的一段,共138个单词,其中形容词共计13个,约占整段字数的9.4%。这些形容词都是简单词汇,其中,good一词重复使用了三次。小说采用第一人称的叙述方式,文中的“I”代表的是一位受教育程度不高的黑人母亲。基于这一点,就不难理解作者为何用词如此简单。此外,该段中主人公在对自己和自己的女儿进行描述时采用的是中性形容词,而对准女婿的描述时,她用mossy来形容他的牙齿,用earnest来形容他的脸,可见主人公对女婿持有偏见或不甚喜欢。
2.副词层面
整篇小说中副词并不多,always一词出现的频度相对很高。在对Dee进行描述时,接连用了多达4个always。Always不仅表示频率很高,还能辅助表达作者蕴含的某种特定的感彩。在此文段中always的频繁使用表达了母亲对女儿很多行为的不解甚至是反感。
二.句子层面
1.句子类型
《日常用品》中多为短句和简单句,少有长句、复杂句和倒装句。在母亲和女儿Dee的对话中,70%以上都是疑问句而且大部分是反问句,这些问句多由母亲向女儿发出且几乎都是由“Whydon’tyou”或“Don'tyou”引导的,语气非常强烈甚至是愤慨,带有很明显的责备和命令的意味,这可以很好地体现母亲对女儿不同价值观的否定,以及对女儿强烈的控制欲和指导欲,很好地刻画出母亲的威严形象和对女儿的殷切期盼。
2.词组类型
在不足一百个单词的第十一段中,介词词组就有七个,占单词数约30个,占到约整段的30%。其中,有四个是由with引导的作方式状语的介词词组。这些词组体现出Dee对待家人不甚关心,以自我为中心,不顾及他人感受,这也很形象地反映出她身上体现出的对黑人文化传统的反叛和对白人文化及生活的热切期盼和忘本式地追求。
三.修辞方面
1.明喻的大量使用
2.拟人的适当运用
四.篇章语境方面
小说采用第一人称的叙述方式,从黑人母亲的角度展开叙述。第一人称的叙述方式不如第三人称的叙述角度那样客观,但是后者不及前者那样具有感染力。阅读过程中,读者很容易将自己主人公化,化身成为那位黑人母亲,因而能更深切地体会到黑人母亲对女儿的不解和失望,但同时又不甘于妥协,极力想改变女儿已形成的价值观。母亲和女儿之间的冲突仅仅是一个缩影,作者真正想反映的是非裔黑人在寻根文化、伤痛文化与现代白人文明的冲击与涤荡中的苦痛挣扎和文化身份认同,构拟出一幅在深沉厚重的历史文化遗产面前迷惘和抗争的画面。
参考文献:
【关键词】绘本作品;文本分析;教学活动
【作者简介】华希颖(1972-),女,上海人,南京晓庄学院教师,南京师范大学学前教育学博士。
在幼儿园早期阅活动中,越来越多的教师选择使用绘本进行教学。当前,有关绘本教学的研究正逐步深入,但随之产生的问题也开始浮现。在一些公开课的观摩活动中,执教者往往对绘本作品内容的阅读一带而过,而更热衷于表现作品附带的“多元发展价值”。于是,让很多教师困惑不解的是,绘本的教学有点像“美术活动”,有点像“社会活动”,甚至还有点像“科学活动”,但好像已经不是“阅读活动”了。
作为一种文学艺术样式,绘本能表现广泛的人类文化活动,它对儿童(包括成人)的确有着多元发展价值。就文学的价值和功能而言,公元前六世纪孔子提出了“兴观群怨”说,认为文学可以使人的精神感动奋发、了解社会生活、增进社会交往、怨刺上政。西方文论也认为文学可以净化、愉悦人的心灵,介入社会生活、实现精神的替代性满足等。在当代文论中,通常把文学的这些价值和功能概括为审美、认识、教育及娱乐功能。[1]儿童文学作品、包括绘本同样具备文学的这四种功能,对儿童成长和发展具有独特的意义。幼小的孩子通过阅读感到心情愉悦、身体舒适快乐、精神自由,这体现了文学的审美和娱乐功能。而当他们带着这些身心的感受去认识天地万物、生活世界,同时在潜移默化中获得发展和成长时,文学的认识和教育功能也随之实现。
因此,儿童文学的各项功能之间是相互联系、相互渗透的关系,它们以整体的方式综合发挥作用。其中,认识和教育功能的实现离不开儿童的审美感受和阅读体验。换言之,文学乃至儿童文学的认识和教育功能的达成有其特殊性,必须建立在审美或娱乐功能的基础之上。
在幼儿园教育领域,教育者的身份使得我们十分重视文学作品和绘本教育功能的实现,但是对教育功能如何实现却仍需尊重文学活动自身的规律。俄罗斯文豪列夫托尔斯泰曾在《艺术论》中谈到,文学艺术活动通过作品唤醒读者体验过的情感,而读者可以在文学活动中用动作、线条、色彩、音响和语言传递并表达出来。[2]在幼儿园文学活动及绘本教学中,我们也可以通过对作品的阅读,激活幼儿已有的情感体验,并鼓励幼儿用语言、表情、肢体动作、声音、涂画等方式欣赏或表达自己的感受。
而在当前幼儿园绘本教学活动的设计中,一线教师存在着教育目标(功能)优先、认知目标(功能)优先的思维定势,不尊重文学活动开展的特殊规律。表现在教学活动过程中,就是忽略对绘本作品基本内容的阅读,淡化或无视幼儿的审美体验,急于实现绘本作品中附带的“多元发展价值”。诚然,绘本作为一种重要的早期阅读材料,可以促进幼儿阅读能力的发展;作为一种课程资源,也可以引发生成主题活动,它的确具有多元价值。但是作为幼儿园语言领域的集体教学活动,教师首先应该尊重作品、尊重文学艺术活动自身的规律,以真正实现绘本对儿童的多元发展价值。
尊重作品,意味着教师带着孩子初次接触绘本时,要让幼儿充分与文本内容沟通、对话,唤醒、激发幼儿已有的审美体验,从而自然实现绘本的认识及教育功能。
一、作品主题的分析
对绘本主题的把握决定了一个教学活动的基本方向。通过多次绘本教研我们发现,一些教学活动的严重失误往往是由于对作品主题的误读引起的,而幼儿教师文学素养的欠缺是其中的一个重要原因。我们知道,一部文学作品意义的呈现,需要读者通过文学接受过程加以具体填充和再建,而这也要求读者具备一定的文学能力和经验对文本所提供的信息进行相应的选择、填充、提炼和重组。[3]如果读者的文学能力有限,那么他们对文本的接受就会发生根本性的阻隔,作品主题的解读就会出现问题。
例如在绘本《第五个》中,作品通过五个残缺不全的玩具在一个昏暗的房间里等待看病的经历,表现了一种克服恐惧和焦虑情绪、最终战胜自己的勇气。但是如果有些教师把作品的主题误读为教育孩子看病的时候要排队,做一个遵守秩序的好孩子,那么在他们的教学活动中自然就会往道德教化的方向上走。
我们在教学研讨中还发现,不仅文学素养的高低会影响幼儿教师对作品主题的理解,一些教师还会故意无视作品所要表达的主题,随意放大或利用作品的某一段细节,而把它作为教学的重点。例如同样在绘本《第五个》中,有的教师发现作品中有“进去一个,还剩四个……进去一个,还剩三个……”的语句,就认为可以利用其进行数学活动,根本不理会作品自身想要表达的含义。
二、画面特征的分析
绘本作为一个新兴的文学艺术样式,是由图画和文字共同来完成叙事抒情、表情达意的任务的。绘本中画面前后页之间的关联及其叙事性特征,使得幼儿可以通过对画面的直接观察来理解作品故事情节的发展、人物形象的活动及审美情感的表现等。仍然以绘本《第五个》为例,其画面的基本特征是:随着人物心情的变化,作品画面的色调从昏暗转向明朗,并用环境中吊灯灯光的移动衬托作品人物的心态。画面中玩具的表情刻画细腻传神,逼真地表现了玩具们就医时恐惧不安的心理状态。那么,我们在教学过程中就可注意引导幼儿从画面色调转换及细节刻画中去观察、预测人物的情绪变化。
而在绘本《我的连衣裙》中,其最突出的艺术特征是通过朗读的音韵节奏感与画面相结合,构成音画相映成趣的节拍,使得画面呈现出奇妙的音乐性。这就要求教师在教学过程中,将朗读作品和翻书的动作配合起来,尤其那些无需发出声音的画面,静静地和幼儿一起体验音乐中休止符的美妙。
三、人物形象的分析
对人物形象的分析也会影响教师的教学进程。由于目前很多幼儿园使用的绘本是从西方国家引进的,我们会发现其中一些人物形象的塑造,例如爸爸妈妈的形象,和中国传统文化观念中的父母形象有不少差异。我国儿童文学作品中传统的勤劳、善良、甘于奉献的母亲形象,与国外众多绘本中会大叫、发脾气、赌气,有自己的乐趣和爱好的妈妈形象相差甚远。如何理解这样颇具挑战的人物形象,如何通过这些丰富、饱满、立体的圆形人物向儿童还原生活和人性的立体与真实,是值得我们每位绘本执教者深思的。
四、语言风格的分析
幼儿园语言教育十分重视幼儿表达能力的培养。幼儿教师也试图通过绘本教学让幼儿想说、敢说,激发他们丰富的语言表达。然而,对于不同语言风格的绘本而言,对幼儿语言发展的目标,以及教师自身语言表达的要求也应该是不一样的。
但同时我们也应该看到,有些绘本的语言风格以说明性的表达方式为主,常表现一些有趣的自然科学现象或社会生活现象,如《昆虫躲猫猫》《小痂》等。那么,教师自身在教学活动中的语言特点就应进行转换,以简洁、准确、清晰的语言表达为主,对幼儿语言能力的培养也不宜过多鼓励表达的丰富性和想象力。而在一些长于抒情的儿童散文、诗歌类绘本中,教师在教学过程中也需注意自身语言表达的艺术感染力,以契合作品特有的语言艺术风格。
此外,当绘本作品的内容可以激发幼儿表达自己的观点时,教师要放下心中固有标准答案的束缚,鼓励幼儿用议论性的表达方式去质疑、反思作品的内容,让孩子们想说、敢说。同时,教师自己也可以作为读者参与其中,发表自己的观点和见解,以激发儿童更深入的议论和讨论。
五、情节结构的分析
对故事性作品情节结构的分析,深深影响着绘本教学活动的具体实施过程。还是以《第五个》为例,这个绘本中故事情节的发展和推进式以人物心理变化为线索,作品中小玩具们波动起伏的情绪变化推动着情节的发展。那么,教师在教学活动实施的现场就可以通过营造人物形象情绪起伏变化的心理氛围,来推动整个教学活动的进程。
有些绘本的情节结构复杂,有多条叙事线索,那么教师有时就要舍得放弃一些叙事情节,在一次活动中以一条叙事线索为主展开教学活动。典型的案例是《我砍倒了一棵山樱花》的教学活动。由于作者同时在作品中叙述了和童年伙伴在乡村山野的游戏、砍倒山樱花树的来由、童年禁忌、山民捕猎等多条线索,教师就不必急于在一次教学活动中把作品所有的内容都传递给孩子,以免使幼儿产生杂乱纷呈的阅读体验。而且,作品中消极灰暗的叙事情节(如山民猎杀野生动物)也不宜向孩子充分展示。
总之,当教师拿到一个绘本时,先不要急于进行活动设计,首先应把自己当成一个读者,对作品文本所呈现出来的主题、画面特征、人物形象、语言风格及情节结构进行深入剖析。这是尊重作品,组织和开展绘本教学活动的前提,也是一名幼儿园语言教师的基本职业素养。
【参考文献】
[1]童庆炳主编.文学理论教程[M].北京:高等教育出版社,2008.
关键词:文本情感计算;情感词典;教育文本;文本分析
一、情感与学习
情感(sentiment)是由非中性事物引起的并反作用于这个事物的非中性的意图和行为[1],是人类最惯常、最重要的体验。人类的认知和情感是相互影响和作用的,对两者的研究密不可分。
认知心理学家Simon[4]和Norman[5]认识到了情感在学习效果方面发挥着重要作用。他们发现哪怕只有很少的一点积极情绪,不仅可以让人感觉良好,而且还可以产生一种思维,这种思维会更有创造性更灵活地解决问题以及更有效更果断地做出决定。这项研究在不同年龄不同职业的人群中得到了验证。
在学习过程中,教师如果能够识别学生的情感状态,并做出相应的反馈,就可以激发其积极的情感,使学生内心产生对教师的好感、依赖和敬慕,进而产生学习热情,使其处于兴奋状态,促进学习水平的提高,从而达到最好的学习效果[6]。
网络学习具有特殊性,师生在物理空间上的分离,导致师生之间不能通过传统的表情、眼神和肢体等方式进行情感交流和反馈。教师得不到学生的情感状态信息,学生得不到教师的反馈,学生学习效果就会受到影响。因此,在网络教学系统中如何获得学习者的情感,具有重要的研究价值[7]。
网络学习环境下,获取学习者情感的技术包括语音识别、人脸表情识别、身体姿势和运动的识别等[8]。这些技术一般需要使用特殊的传感器来采集学习者数据[9][10]。当然,慕课等大规模在线学习方式中能快速直接获得学习情感信息的介质仍然是文本,如讨论区、BBS、博客、调查反馈等交流活动中的文本。这些文本情感信息反映了学习者在学习过程中的情感状态。
慕课等在线学习平台学员数量众多,讨论区产生的文本数据庞大。而人数有限的教师和助教很难实时、准确地辨别文本的情感状态,并给出恰当的反馈。因此,很有必要设计一个文本情感计算系统,它能自动或半自动地分析文本情感、筛选文本信息,帮助教师针对学习者的情感状态快速做出恰当的反馈。
二、文本情感计算
1.概念
情感计算(AffectiveComputing)是人工智能的一个分支领域。美国麻省理工学院Picard于1997年首先提出了“情感计算”的概念[11],并将其定义为关于情感、情感产生以及影响情感方面的计算。情感计算的目的在于使设计的系统和设备能够识别、理解和处理情感。
认知语言学认为人类能够通过语言的表达反映出认知的过程和结果,同时反映出真实的情感。既然语言能够反映出情感,那么文本也当然可以[12]。因此,从认知语言学的理论上来讲,文本中包含了一定的情感信息。
2.情感极性分类
情感极性分类的工作就是判别情感的种类。情感种类的集合构成了情感模型。在多种情感模型中,OCC模型和Ekman模型被广泛使用。
Ortony、Clore和Collins于1988年提出了著名的认识评价情感模型OCC(Ortony,Clore,Collins)模型[14]。这个模型根据三类起因和事件的结果,提出了22种情感类别:高兴,幸灾乐祸,妒忌,遗憾,充满希望,害怕,快乐,悲伤,骄傲,羡慕,害羞,责备,喜欢,讨厌,自满,感激,悔恨,生气,满意,悲观,放松和失望。但是OCC模型被实际应用的情况并不多,主要是因为情感分类过于复杂。Ekman于1992年提出可以将情感分为气愤(Anger)、厌恶(Disgust)、恐惧(Fear)、愉悦(Happiness)、悲伤(Sadness)和惊讶(Surprise)六种类型[15]。这6种情感是组成所有情感的基本单位,人类的所有情感均可由这6种情感衍生而来。同时,相较OCC模型的22种类别划分,Ekman模型的情感极性维度相对较少,实际应用时相对简单。因此,我们也采用Ekman情感模型来为文本分类。
3.情感强度
情感强度计算是能够反映文本情感极性的强弱程度的一个指标,因为在每一种情感种类内,会有情感程度强弱之分。目前在文本情感计算领域,针对情感强度计算的量化问题并没有一个统一的标准。Wilson和Wiebe将情感强度标注为3个级别:低、中、高[16]。Choi和Cardie将情感强度以具体数值计算,取值范围为[0,10],数值越高,情感表达越强烈[17]。我们设定情感的强弱取值范围为区间[-18,18]。在区间[0,18],数值越大表明该情感越强烈;数值为0时,表示没有情感;在[-18,0)区间,数值负号表示情感极性相反,即为取“非”操作。例如“anger”的非为“notanger”,即为“不愤怒”。数值绝对值越大表明该情感的相反极性情感越强烈。我们规定,取非操作的情感与原有6种情感之间相互独立,不存在关联。例如,“不愤怒”不一定为“高兴”,而“高兴”一定是“不愤怒”。
4.文本情感计算的层次性
文本情感计算层次代表情感计算的研究领域和范围。根据文本信息的语法结构可以将其分成4个层次:词语、短语、句子和篇章。4个层次之间具有强烈的继承关系,词语是短语的基础,短语是句子的基础,而句子又是篇章的基础。文本情感计算的研究是由最底层的词语层次开始,逐渐过渡到篇章层次,环环相扣。
因为网络学习的文本大都较短,少于150字;文本内容一般由两三句话构成,句子层次的文本情感计算可以满足研究分析要求。又因为词语层次和短语层次是句子层次的研究基础,我们的情感分类工作集中在三个层次进行:词语、短语和句子。
词语层次是文本情感计算的基础,主要任务是发现并提取文本中带有情感色彩的词语,并且确定其情感极性和情感强度值。词语层次的工作主要围绕情感词典的构建来进行。词典中词语的数量和词语的属性直接决定了系统的性能。词语的属性是指情感极性和情感强度。为大规模的词语标识出其情感极性和强度的最原始的方法就是人工标注,虽然准确但耗时耗力。使用基于统计的有监督和无监督的机器学习方法可以实现词语情感的半自动标注。
Turney和Littman的无监督学习法使用一种点互信息和信息检索相结合的计算方法,来判定待定词与种子词之间的信息量。种子集合是由具有正面情感极性和具有负面情感极性的示例词构成[18]。在中文处理方面,Zhang等人利用情感标注语料中抽取的上下文模板,在未知语料中计算模板与词语之间的关系,进而判断词语的情感极性[19]。
Turney的研究表明英文中某些短语模式的形容词和副词携带情感信息[20]。这一重要结论推动了基于规则的研究方法的发展。宋光鹏依据Turney的结论,并在其5种短语模板的基础上进行了改进,加入了判断否定情感倾向的词和相应的语句连词。最终归纳形成了适合中文的短语模板语法规则。通过语法规则模板直接进行匹配,就能够计算出句子的情感极性和强度[21]。
三、系统设计
在情感计算领域中,基于统计和基于规则的两大方法都各有所长。因此,我们以基于规则的方法为主,配合基于统计的方法,构造一个文本情感计算系统,并将之命名为“小菲”(英语单词Feeling的音译)。该系统拥有自己的情感词典,按照词语、短语和句子三个层次进行情感识别和综合计算。下面介绍这些模块。
1.情感词典建构
扩充词典容量使用基于统计的方法完成,利用有监督的机器学习方法从《同义词林扩展版》扩展词典的褒贬词语,利用无监督的机器学习方法从网络中扩展词典的网络词语。由四名研究助理完成手动标注词语情感极性和情感强度的工作,手动共标注了8589条词语。最终将32879条词语整合到一部情感词典中,并命名为《小菲词典》。
2.系统流程
按照情感计算的发展模式,从词语级别开始,经过短语级别,最后到达句子级别,从而实现句子情感极性分类和情感强度计算的功能。
短语级别的主要工作是使用基于规则的方法构造短语情感模板。有一些短语能够携带情感信息,可以构造为短语情感模板。
副词对词语也有修饰作用,会导致情感强度和情感极性发生变化。所以将副词分为程度副词和否定副词两类进行处理。程度副词不改变情感极性,而是影响情感强度。否定副词既改变情感极性,又影响情感强度。
当句子长度较短的时候,语法省略现象严重,不宜使用过于复杂的判断模型。直接使用词语、短语匹配的方法计算情感反而较为准确。对于较长的句子,就使用简单句的情感计算模型和句子关系模型来计算句子的情感。
句子包括复合句和简单句。复合句是由简单句和关系连词构成,不同的关系连词构成了不同的句子关系类型,如“并列”、“转折”和“递进”等关系。不同的句子关系类型情感的计算方法也不尽相同。比如转折关系,句子的主要情感是靠转折词之后的简单句表达。因此,句子级别的情感计算,首先判断该句子是否是复合句。如果是的话,就找出其中的连词,根据连词确定句子关系,根据该关系和简单句的情感计算结果确定复合句的情感极性和强度值。
3.编程语言
系统使用JAVA、Mysql、ICTCLAS和StanfordParser等开源环境和工具构建。JAVA语言是通用的编程语言,不受操作系统的限制,与其他各类系统的接口支持都很完善。因此,本系统使用JAVA语言实现文本情感计算模型和各系统之间的数据交换处理。Mysql是一个关系型数据库管理器,情感词典和句子类型等表格都保存在Mysql数据库中,通过JAVA语言进行调用。ICTCLAS是中科院提供的支持JAVA调用的分析系统。为更好地识别情感词和句子关联词,我们扩展了ICTCLAS的自定义词典,将《副词词典》、《小菲词典》和句子关系类型导入到ICTCLAS的自定义词典中。StanfordParser是依存语法关系分析器,输入的数据是经过分词后的简单句,输出的结果是简单句的依存语法关系数据。它本身是用Java语言实现的,方便调用。
四、在教育领域文本情感分析的初步尝试
关于文本分析的性能,有一系列评测指标,包括查准率P(Precision)、召回率R(Recall)和F值等。
P为查准率,是衡量某一检索系统的信号噪声比的一种指标,即检出的正确数据数目与检出的全部数据数目的百分比。R为召回率,是检索系统从数据集中检出的正确数据数目和数据集中所有正确数据数目的比率。
F值是查准率和召回率的加权几何平均值,是情感计算系统最重要的评测指标之一。F值计算方法如下:
F=
为测试该系统的性能,我们选取了一个小样本的文本,以便既可以人工标注,又可以让系统自动识别,并比较两者的结果。2013年北京大学“新媒体与教育”暑期学校创新教学模式,使用慕课的方式展开学习[23]。在课程结束时,通过MOOC平台收集了学员对本次暑期学校的反馈和建议,共377条,其中来自面授学员的201条,来自在线学习学员的176条。我们先人工标注了这些反馈的情感极性和强度,然后使用“小菲”系统进行了自动计算;测评结果算得F=88.7%,在文本情感分析领域属于较好的结果。
五、在教育领域的应用前景
尽管本系统在小样本的教育文本情感计算测试中结果很好,但是它仍然存在一些缺陷,需要进一步完善提高:目前的三万多条情感词还不能完全覆盖浩瀚的中文词语,应该持续添加新词,比如新出现的网络语言,改善ICTCLAS分词结果,增加关于世界的常识性知识,等等。
[1]杨巍峰.对情绪情感定义的管见――兼与杨泽民同志商榷[J].心理学探新,1986(3):35-39.
[2]卢家嵋.情感教学心理学[M].上海:上海教育出版社,2000.
[3]A.C.Graesser,B.Medaniel,P.Chipma,ect.DetetionofEmotionsduringlearningwithAutoTutor[R].DepartmentofPsychology,2006:285-290.
[4]H.Simon.Motivationalandemotionalcontrolsofcognition:inModelsofThought[M].NewHaven:YaleUniversityPress,1967.
[5]D.Norman.Twelveissuesforcognitivescience[A].InNormanDA(Ed):Perspectivesoncognitiveseience[C].Erlbaum,Hillsdale,NJ.1981.
[6]R.W.Picard,S.Papert,ect.Affectiveleaming-amanifesto[J].BTTechnologyJoumal,2004,22(4):253-269.
[7]唐伟志,贾云.远程教育中情感缺失问题的对策研究[J].甘肃广播电视大学学报,2012(2):1-4.
[8]J.Tao,T.TanandR.W.Picard.AffectiveComputing:AReview[A].LNCS3784.German:Springer-VerlagBerlin/Heidelberg[C],981~995.2005.
[9]傅小兰.电子学习中的情感计算[J].计算机教育,2004(12):27-30.
[10]付彦飞,牛秦洲,阈小梅.基于情感计算的个性化E-Learning系统的研究[J].微计算机信息,2010(36):241-244.
[11]R.Picard.AffectiveComputing[M].Cambridge:MITPress,1997.
[12]陈文萃.从认知看情感表达的隐喻概念[J].南华大学学报,2009(9):112-142.
[13]B.Pang,L.Lee.OpinionMiningandSentimentAnalysis[J].FoundationsandTrendsinInformationRetrieval,2008(1-2):1-135.
[14]A.Ortony,G.Clore,A.Collins.TheCognitiveStructureofEmotions[M].Cambridge:CambridgeUniversityPress,1988.
[15]P.Ekman.Anargumentforbasicemotions[J].CognitionandEmotion,1992,6(3-4):169-200.
[16]T.Wilson,J.Wiebe.AnnotatingOpinionsintheWorldPress[A].In:Proceedingsofthe4thACLSIGdialWorkshoponDiscourseandDialogue(SIGdial’2003)[C].13-22,2003.
[17]Choi,Y.,andCardie,C.LearningwithCompositionalSemanticsasStructuralInferenceforSubsententialSentimentAnalysis[A].InProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing[C].pp.793C801.2008.
[18]P.D.TurneyandM.L.Littman.Measuringpraiseandcriticism:Inferenceofsemanticorientationfromassociation[J].ACMTransactionsonInformationSystems,2003(4):315-346.
[19]C.Zhang,W.Zuo,T.Peng,F.He.SentimentClassificationofChineseReviewsUsingMachineLearningMethodsBasedonStringKernel[A].ThirdInternationalConferenceonConvergenceandHybridInformationTechnology[C].2008.
[21]宋光鹏.文本的情感倾向分析研究[D].北京:北京邮电大学,2008.
[关键词]飓风营救;吕克贝松,叙事学,世俗神话;叙事动机
一、文本“当代世俗镜像神话”特性研究
叙事结构分析差不多可以追溯到弗拉迪米儿普罗普的著作《俄罗斯童话形态学》。他列出一项包含31种功能的序列公式,并考虑到任何一种变化的可能性,以涵括他所研究的全体的童话结构。利用普罗普的叙事单元与功能序列可以印证《飓风营救》的当代世俗神话特性:
1准备单元
影片开始,我们看到斑驳画面中一个小女孩在过生日,镜头猛然切回现实,主人公布莱恩出场,刚从梦中被惊醒的样子。主人公离开沙发,特写立在桌子上的照片:一个十七八岁的女孩。这样的画面语言,给叙事埋下伏笔,让我们感觉主人公形单影只地独居在单身寓所。而产生疑问:他的家人呢在随后女儿肯姆的生日party上,我们得知他的前妻已经带着女儿改嫁了一位富豪。第二重疑问产生:为什么他的家人会离开他朋友寻求布莱恩的帮助,引出他退役前的职业性质:美国国家安全部门的特工。但为了弥补对女儿亏欠的父爱,他毅然辞去了这份危险系数大的工作。肯姆和朋友去巴黎游玩,需要布莱恩的签字许可。布莱恩担心她的安全。
2纠纷单元
肯姆来到巴黎,被黑帮团伙拐卖,向布莱恩求救。肯姆借助特工同伴的帮助,查到这是一伙以贩毒与组织为主的犯罪集团。为了营救女儿,布莱恩只身前往巴黎。
这样的剧情设置,环环相扣的情节发展,更吸引了大部分喜爱剧情功夫片的固定受众。
二、文本“核心二项对立式”人物分析
这里有一个起关键作用的元素:被拯救的主体(肯姆以及其他被拐卖的妇女)。他们相互之间存在的关联。促使整个影片剧情的发展与结构的延宕。显而易见,片中存在最为突出的对抗性二项式,便是布莱恩与整个黑帮团伙之间的矛盾。这个近似于美国传统电影套路中的灵魂便是:一个英雄的拯救主题。找出这个最主要的二项对立式,我们可以再更细致的分析其余二项对立式在结构电影过程的作用。在影片中,正义与非正义的力量是一对相互依赖的矛盾对抗体,当布莱恩失去了黑帮集团派出的托儿彼特,他在巴黎寻找女儿线索也就此中断。主体的行动遭遇阻断,这时出现了布莱思的老朋友简,曾经也是特工出身的简现在已经就职于法国国家安全局。布莱恩希望借助他的力量找出犯罪团伙的聚集地。简本能上拒绝帮助主体的拯救行动,客观上却又为布莱恩提供相对有利的信息。而作为官方的力量,简却利用职能之便,收取黑帮团伙高额的保护费,对他们的非法行径给予了一定意义上的庇护。
人物关系错综复杂与情感纠葛,以及每个人物表层和深层人格的乖悖,使得剧情在人物关系发展的线索上层层推进。
三、文本“多重功能序列意义单元叠加”(复合类型)研究
《飓风营救》的文本结构是两个功能序列的重合。如果我们参照格雷马斯关于叙事意义的基本单元:契约、考验、移置等来考察与以上相类似双重叙事功能序列,我们会发现这同时是不同功能序列中意义单元的叠加。
1契约
细致分析《飓风营救*的文本,可以看到其中存在的双重契约关系:布莱思与前妻、女儿之间的契约。剧情中有一场需要生父布莱恩签字,女儿才可以出国巡游的戏份,是布莱恩与女儿肯姆之间冲突最为激烈的一次,也为营救埋下了伏笔。第二重契约。是法国安全局简和布莱恩之间的隐性契约,在片中,简为布莱恩提供了有关拐卖组织的讯息后,提醒他“别惹出太大的乱子”并派人暗中监视,而当布莱恩在搜寻过程中杀了人后,简和布莱恩之间的契约关系也随之宣告结束。简开始成为布莱思营救过程中的阻力之一。
2考验
3移置
1需求分析
这里需要一种可以运行在云端的文本分类软件,软件主要运行在安卓客户端和云端服务器之间。要求软件使用最小数据量实现最大程度的云端数据整合和文本分析准确率。
1.1流程分析
本文需求并不要求更智能化的识别方式,而是通过语义分析法,通过对特殊关键词和关键词组合的方式进行识别得到文本分类结果。本文的研究内容主要用于识别和分析500字符之内的自然文本。这部分自然文本主要应用在对网络页面文本进行分析,同时用于对捕捉到的超文本标识代码进行内容文本和代码段的识别,业务流程图如图1所示。
1.2模块分析
传统语义分析算法来自人工输入的特定文本之间的判断,一般语义分析算法只能识别80~120个关键词[5]。但此种规模的识别字典完全不能适应本文要求对自然文本的识别,所以本文采用三层识别方法见图2。
P1.1:根据固定关键词,识别超文本标识语言中的标识段数据,并将其剔除。
P1.2:根据自学习关键词,识别自然文本中的关键词,根据词频和关联度进行价值估计。
P1.3:根据自学习关键词,识别自然文本的含义,评估不同文本段之间的相似度,对文本段进行归纳整理。
而本软件的自学习部分(P2)不从传统的人工智能算法中得到关键词字典,而是采用语义分析中常用的联系算法进行关键词管理[6]。自学习部分放在云端服务器上,自学习结果采用软件更新的方式发送到客户端。自学习产生的流量来自服务器与互联网之间的联系,并不占用GPRS通道。
软件的移动端部分(P3)通过相对固定的关键词字典集合,根据实际分析得到的数据匹配结果进行远端比较,但大部分数据需要提交到P1模块进行局端比较。在移动端形成比较字符串后,可以较大程度地实现GPRS链路的数据最小化。
1.3数据流分析
P1模块输入数据D1.1为P1.1的关键词字典数据,该数据以数据库表的形式保存在数据库中,形成表dataPinSOL。该数据主要用于辅助识别字段中的无信息量字符串,如超文本标识语言中的标识字符串等。
P1模块输入数据D1.2为P1.2的关键词字典数据,该字典数据来自自然文本中经常出现的字符串,以及用户易搜索的字符串。这部分字符串来自对海量信息的比较,海量信息来自互联网遍历捕捉文本和搜索引擎的采集文本。
P1模块输入数据D1.3为P1.3的关键词字典数据,该字典数据来自对D1.2数据进行进一步挖掘得到的与D1.2数据经常合并出现的字典数据。这部分字典数据同样来自语义分析的分析法。
因为本文算法不采用无限递归法[7],而是采用了三层计算的架构,而将语义分析段代码用于多层不限制递归。所以P1模块的数据流相对简单。P1模块的输出数据流为DL1,定义为比较结果字符串。该字符串作为搜索引擎对语义识别的结果字符串,不具备人脑识别的功能,但可以在计算机论文中给自然语言提供镜像,可以让较为模糊的自然语言在计算机中得到识别和模糊对比。
2算法设计
因为篇幅限制,本文仅讨论和展示部分核心代码和算法的设计,较复杂的算法过程不再给出伪码。P1.1是超文本对比算法,超文本对比算法使用了最经典的语义分析算法。而P1.2和P1.3采用的算法是在经典的语义分析算法的基础上做的扩增[8],这部分扩增可以让语义分析算法更加适用于自然语言下的文本分类。
本文算法的最主要成果是使用最小的CPU和RAM资源,对自然语言文本进行比较,从而获得更高效的适应当前互联网云服务市场的软件[9]。
2.1超文本对比函数算法(P1.1局部)
读字典数据表,做对比循环函数。
对比循环函数伪码如下:
OPENTABLEDICT
DOWHILEDICTNOTEOF
GETDIG_DICTRECORDSETFORMDICT
OPENTEXTFILE
GETL_DIG_DICTLENTHDIG_DICT
FORI0TOLENTHTEXTFILE
GETT_TEXTFILEMIDDLETEXTFILEIL_DIG_DICT
GETSUMSHOWCOMPAREDIG_DICTT_TEXTFILE
NEXTI
LOOP
RETURNSUMSHOW
2.2数据逻辑网络的实现(P1.2局部)
2.3文本相似度评估算法(P1.3局部)
本文采用的文本相似度评估算法分为两段:
第一段对输入文本进行比较评估,对字典中每个关键词进行词频分析,同时对关键词出现的位置进行[t]检验和[χ2]检验,将结果使用Minmax处理为(0,1)值域。将每个处理结果进行汇总制表。与此同时,将输入文本与每个关键词的关联词进行词频分析,同时对关键词的关联词位置进行[t]检验和[χ2]检验,将结果同样使用Minmax处理为(0,1)值域。Minmax结果设计为小数点后12位小数。将每个处理结果进行汇总制表。
3结语
本文就基于语义分析在计算机技术文本分类中的应用进行了软件工程分析和设计,在面向对象的设计模型中,本文实现了不使用任何神经网络递归算法就可以得到高效率的软件系统。这个算法系统可以在移动互联网设备中得到较广泛的应用。
参考文献
关键词:博物馆牌示解说;规范表述;布局;文体;语言
中图分类号:H315.9
1.引言
本文将从牌示解说的布局格式、文体、语言使用特点等方面,以西安陕西历史博物馆为例,分析博物馆旅游景点牌示解说的译文现状以及规范表述。
2.博物馆牌示解说的规范表述
2.1制作布局格式
①全貌解说的牌示系统普遍缺失配备简短文字标注的全景图。冗长的文字介绍不能满足海内外游客清晰、直观获取有用信息的目的,从而,牌示解说的服务功能、使用功能被大大削弱。
2.2文体要求
在文体上,牌示解说应归类于说明文范畴。因此英文牌示解说的语言使用,也应符合英语说明文的要求。英语说明文在句法上,通常会“使用很多有be作系动词的句子;会使用关系短语以及表示方位和方位移动的介词和副词词组;会经常使用thereis/thereare的句式,以及在描述形状、大小、颜色和数量时说明文里多运用形容词,”(2006,王,吕)等等。在涉及到制作步骤的说明文时,英语说明文还更多地使用被动语态和祈使句。
作为全国首批“AAAA”级旅游景点,西安陕西历史博物馆内的英文牌示解说在文体使用上力求规范,意图实现牌示解说的教育功能:
例:原文/译文:金饼也称饼金。共219枚,每枚重227.6—254.4克。总重量54116.1克,是迄今汉代金饼出土数量最多的一次。绝大多数有戳记、戳印,部分兼有文字、符号等刻铭。非流通货币,主要用于赏赐和馈赠。GoldDiscsarealsocalledCake-shapedGold.Altogether219discs,eachweighs227.6-254.4g,wereexcavatedfromahoard,theirnumbersarethebiggestamongtheunearthedgolddiscsofHandynasty.Mostofthembearcharacters,marks,orstampsorimpressions.Theywerenotthecirculatingcurrency,andweremainlyusedasrewardsandgifts.
在这则关于出土文物金饼的英文解说中,首先,被动语态大量在文中使用,如,…arealsocalled…,…wereexcavatedfrom…,…weremainlyusedas…。,其次,系动词be也被使用,如,…arethebiggest…,…werenotthecirculatingcurrency…。此外,简单句和并列句扩展了内容,容纳了更多的信息。
2.3语言特点
博物馆旅游景点牌示解说的汉英文本语言特点不尽相同。汉语表达的辞藻华丽和英语表达的直观简洁构成了鲜明的对比。这是由不同民族文化背景、价值观以及思维方式决定的。因此,在旅游景点牌示解说词的构成方面,要充分考虑牌示解说的阅读对象,从而更好地选择恰当的词汇、句法和语体表现风格。试举例如下,并分析其语言特点。
关键词:文本分类贝叶斯技术TF-IDF
文本分类是信息处理领域中重要的研究方向之一,其属于有指导的机器学习,它广泛应用于信息自动检索、文本过滤和网页层次分类领域
一、向量空间模型的建立
1.特征向量
文本分类之前应将藏文文本转换为易被计算机理解的形式,即分词。再通过特征选择实现降维,特征加权提高分类准确度。
2.特征选择
特征选择是从最初的n个特征中选取t(t
本文给出一个判别方法,如果某特征词满足条件(2)式,即将该特征归为平凡词,并予以删除。(2)
方程(2)表示某特征词在每个类别中出现该词的文档频度计数与所有出现的类别中出现该词的文档频度计数总数的比例小于等于阈值
的话,就将该特征词作为平凡词。在实验中,使用条件(2)逆反条件来进行判断,即只要该特征词在某个类别中出现该词的文档频度总数大于阈值的话,就可以将该词作为次关键词予以保留。
3.特征权重
在文本向量空间表示中,每个特征项有一个权值,文本特征的权重反映该特征词对标识文本内容的贡献度和区分文本的能力。在藏文文本向量空间模型中,藏文文本特征项的权值计算一般采用公式:(3)其中,个藏文文本特征的藏文文本数。
为了减少藏文文本长度的不同对藏文文本相似度计算的影响,通常要将每个向量归一化到单位向量,最后得到的藏文文本特征项的权值计算公式如下:(4)
本文的语料库来自互联网藏文网站的600个文档集,其中包括6个类别,分别是:政治、经济、宗教民俗、卫生医疗、教育、生态环境,每个类别是由100个文档构成。本文在matlab中进行实验,采用查准率(Priecision)和查全率(Reicall)作为评估方法:
TP表示测试文档集中本来属于类别iC而且分类器分类到类别的iC文档数,iFP表示测试文档集中本来不属于类别iC但被分类器错误分到的iC文档数,iFN表示本来应该属于类别iC但被分类器分类到其他别的类别的文档数。
由表(1)的实验数据看来,采用朴素贝叶斯方法在分类效果上比KNN算法要好,表明本文方法在藏语语文本分类上能取得较好。
结论
本文结合朴素贝叶斯分类器对藏语文本分类进行了研究,重点介绍了贝叶斯藏文文本分类算法中一些常用的关键技术。实验数据分析结果表明,本方法在藏文文本分类技术方面取得了较好的分类结果。
[1]苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报.2006(9):1848-1859.
[2]周国强,崔荣一.基于朴素贝叶斯分类器的朝鲜语文本分类的研究[J].中文信息学报.2011年7月.第25卷,第4期:16-19
【关键词】信息化大数据Hadoop文本分析
1背景
2中文微博数据分析逻辑
如图1,显示了整个营销分析流程的逻辑。从客户微博开始,到商家向用户商品目录和优惠信息,整个流程分为五个步骤:
(1)客户微博,从微博上初步获取的数据为“粗数据”,掌握用户自定义的标签,作为用户肖像的一部分。
(3)将用户的微博进行语义分析,基于Hadoop的文本分析平台将对中文进行分词,分词后将与字典进行比较和分类,总结出该用户的兴趣爱好所在。
3方案架构
整个系统架构,如图2所示,主要由文本分析系统、DB2BLU数据库以及Cognos数据分析工具组成。首先从互联网上获取数据以后,将原始数据送入文本分析平台进行分析,主要做中文分词、情感分析等工作;然后将文本分析结果整合后输出送入DB2BLU数据库中,进行存储、建表,建表包括客户肖像表、商品目录表、促销策略表等;最后,利用DB2BLU与Cognos无缝集成的优势,用Cognos对数据进行分析。根据Cognos分析出的结果,生成促销的报表,继而将优惠信息分别推送给每个用户。
如图3所示,为基于Hadoop平台的文本分析架构图,整个架构主要由三部分组成:引擎部分:用户的微博中获取的数据生成文本格式送入文本分析引擎,在输入之前,由于客户的ID、性别、地点已经提取出来,可以作为客户肖像的一部分,但并不送入文本分析系统。引擎部分主要处理中文分词、将分词与词汇库中的字典进行匹配、分类。分词的作用主要将动词,以及动词后的名词分开,情感词,以及表达情感的对象分开等。词汇库部分,主要负责存储客户合作模型的词汇词典,这一部分的词典部分有手工添加,部分由系统根据词汇库聚类生成,词汇库存于HBase上;最后是负责输入输出文本的部分,这一部分利用JAQL来拼接“原始标签”与分词后的标签,一起构成客户肖像表。
本文用于存储客户肖像的为DB2BLUAcceleration。BLUAcceleration的架构如图4所示。
使用DB2BLU具有的性能优势,采用列式存储,只对需要的数据列进行读取,可以减少I/O。采用霍夫曼编码对数据进行压缩,降低内存消耗。SQL采用并行运行方式,利用CPU寄存器,避免并列干涉。使用列存储算法,便于更多的缓存数据,提供内存利用率,有效减少I/O。
4结束语
本文介绍了基于大数据的中文舆情分析系统,采用基于Hadoop平台的文本分析,以及IBMCognos无缝集成DB2BLU加速器的优化分析能力,提供快速的查询和分析功能。整个系统针对互联网大量的数据进行处理、文本分析,经过分析为客户定制肖像,商家可以根据肖像来向客户推送客户需要的优惠信息。经过样本数据测试,推送给用户的信息,与用户的自然标签(用户自己为自己设定的)对应性很高。在实时性、大量重复词汇的处理上面,由于中文语义分析的局限性,还有待优化和提高。
[1]张艺帆,王永,郭辉.基于大数据的中文舆情分析[C].IBMdebeloperWorks技术主题,2014.
[2]郝增勇.基于Hadoop用户行为分析系统设计与实现[D].北京交通大学,2014.
关键词:极限学习机;稀疏自动编码器;集成学习;文本分类
1概述
随着现代社会的发展,互联网成为了人们获取文本信息的重要手段。然而网上的信息杂乱无章,使得人们很难快速而准确的获得所需要的文本信息。因此如何有效的对文本进行分类,帮助用户找到所需的信息成为当代信息技术领域的一个重要课题[1]。
本文提出利用深度学习中的稀疏自动编码器自动选取文本的特征,然后利用极限学习机作为基分类器进行文本的分类,最后结合Adaboost集成学习方法将极限学习机作为基分类器组合成一个效果更好的分类器。实验结果表明,该算法在文本分类方面,可以有效地提高文本分类的准确性。
2.1稀疏自动编码器
稀疏自动编码器(sparseautoencoder,SAE)是利用人工神经网络的特点构造而成的网络。稀疏自动编码器的训练过程分为两个步:第一步是预训练,即先利用无监督的方法将SAE的输入层和隐含层全部初始化,然后再利用逐层贪心训练算法确定网络的参数。第二步是微调,其思想是整个网络视为一个整体,用有监督学习的方法优化整个网络的参数,由于SAE训练过程的复杂性,具体过程可参考文献[2]。
2.2极限学习机
2.3Adaboost分类器
3SEA文本分类算法
在本文中,结合稀疏编码器,极限学习机与Adaboost这三种机器学习方法提出SEA文本分类算法,该算法的工作流程如图1所示。
该分类算法的第一步为输入,输入的是经过了向量化表示的文本,但没有经过任何的手工特征提取。第二步是利用SAE算法对数据的重建能力自动选择文本的特征,用SAE算法选择的文本特征可以有效地复原原始文本信息。第三步是利用ELM分类器作为该算法的基分类器,ELM作为第四步中的基分类器参与训练,最后一步是输出该文本属于哪一类。
4实验结果与分析
4.1实验数据集与评价指标
在文本分类中常用的评价指标有准确率P(Precision)和召回率R(Recall),公式如下:
P=M/(M+N),R=M/(M+T)
其中,M为正确分类到该类的文本数,N为错分到该类中的文本数,T为属于该类确误分为别类的文本数。
4.2实验结果
为验证本文提出的SEA文本分类模型,需要将文本数据集进行预处理,对于SEA模型来说,就是进行文本分词。本实验文本分词采用的是NLPIR汉语分词系统,其主要功能包括中文分词,词性标注,命名实体识别,用户字典功能等,是国内比较成熟,用户较多的中文文本分词系统。经过文本预处理后,按照本文提出的SEA文本分模型进行实验,并和几种经典的分类算法做对比。在本实验中Adaboost集成学习算法中基分类器的个数设置为10个,基分类器ELM中隐藏层的个数设置为输入层的0.75倍,稀疏自动编码器中隐藏层数设置为4,实验结果如表1和表2所示。
从表1和表2可以看出随着文本数量的增加,SEA模型的分类准确率和召回率逐渐提高,这是由于在训练数据集较小时,稀疏编码器对自动提取的文本特征变现地不是很理想,容易造成SEA分类模型产生过拟合现象,从而影响分类准确率和召回率。SVM算法在训练数据集比较小时,变现良好,这是由于在训练数据较少时,可以较容易地找到分类超平面,在数据量变大时,由于计算量的增大,使得计算量变大,导致计算得到的超平面效果不好,使得分类准确率和召回率不断下降。BP和ELM算法都随着训练数据的增大,其分类准确率和召回率在不断变大,这是由于随着训练数据的增大,BP和ELM可以更有效的提取输入数据的特征,但ELM算法相比BP算法变现得更好,这是由于BP算法可能无法收敛到最优值,导致分类算法的准确率下降。
综上所述,本文提出的SEA文本分类模型可以有效的提高文本分类的准确率和召回率,尤其是随着训练数据集的不断增大。
5结束语
文本分类在文本处理中占据着重要的地位,其分类的好坏直接影响着后续的文本处理,如何有效地对文本分类是一个重要的研究课题。本文结合稀疏自动编码器,极限学习机与Adaboost集成学习方法提出SEA文本分类方法,实验结果表明该分类方法可以有效将文本分类过程中的特征提取和分类器结合在一起,从而提高了分类结果的准确性。
[1]秦胜君,卢志平.稀疏自动编码器在文本分类中的应用研究[J].科学技术与工程,2013,13(31):9422-9426.
[2]BaldiP,GuyonG,DrorV,etal.Autoencoders,UnsupervisedLearning,andDeepArchitecturesEditor:I[J].JournalofMachineLearningResearch,2012.
[3]HuangGB,ZhuQY,SiewCK.Extremelearningmachine:Theoryandapplications[J].Neurocomputing,2006,70(1-3):489-501.
[4]Freund,Yoav,Schapire,RobertE.ADecision-TheoreticGeneralizationofOn-LineLearningandanApplicationtoBoosting[J].JournalofComputer&SystemSciences,1999,55(1):119-139.
关键词:潜在狄利克雷分布(LDA);向量空间模型(VSM);文本相似度;KNN分类
DOI:10.16640/ki.37-1222/t.2016.06.192
1引言
目前,面对着互联网上各种各样、数量繁多的新闻网页,人们不知道如何选择自己需要和喜爱的新闻。因此,人们越来越迫切地需要一个对新闻进行分类的工具,能够用来快速浏览自己需要的新闻内容。
常见的文本分类技术包括KNN算法、贝叶斯算法、支持向量机SVM算法以及基于语义网络的概念推理网算法等。KNN算法在新闻等网页文本分类中有着广泛的应用,他的思想是对于待分类的文本,通过由与该样本最接近的K个样本来判断该样本归属的类别[1]。
本文针对传统KNN算法在度量文本相似性时仅仅考虑文字层面的相似性,而未涉及语义层面。首先,对新闻文档进行VSM和LDA主题建模,结合LDA模型与VSM模型计算文档之间的相似度;其次,以复合相似度运用到基于相似度加权表决的KNN算法对新闻报道集合进行分类。
2.1向量空间模型
向量空间模型(VSM:VectorSpaceModel)由G.Salton、A.Wong、C.S.Yang[2]等人于20世纪70年代提出。向量空间模型(VSM)以特征词作为文档表示的基本单位,每个文档都可以表示为一个n维空间向量:T(F1,W1;F2,W2;…;Fn,Wn),简记为T(W1,W2,…,Wn),Fi为文档的特征词,Wi为每个特征词的权重,则T(W1,W2,…,Wn)为文本T的向量表示[3]。特征词的权重值一般采用TF*IDF来计算。
向量空间模型把文本内容用n维空间向量表示,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂,但向量空间模型并没有考虑到特征词之间的语义关系,可能丢失很多有用的文本信息。
2.2LDA主题模型
2.2.1LDA主题模型基本思想
主题模型是统计模型的一种,用来发现在文档集合中的抽象主题。LDA(LatentDirichletAllocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。首次是作为概率图模型由DavidBlei、AndrewNg和MichaelJordan于2003年提出[4],图1为LDA的概率图模型。
其中M为文档总数,K为主题个数,Nm是第m个文档的单词总数,β是每个Topic下词的多项分布的Dirichlet先验参数,α是每个文档下Topic的多项分布的Dirichlet先验参数。zm,n是第m个文档中第n个词的主题,wm,n是第m个文档中的第n个词。隐含变量θm和ψk分别表示第m个文档下的Topic分布和第k个Topic下词的分布,前者是k维(k为Topic总数)向量,后者是v维向量(v为词典中词项总数)。
2.2.2Gibbs抽样
GibbsSampling是马尔科夫链蒙特卡洛算法的一个实例。该算法每次选取概率向量的一个维度,给定其他维度的变量值采样当前维度的值,不断迭代至收敛输出待估计的参数[5]。
从2.2.1中可知,zm,n、θm和ψk变量都是未知的隐含变量,也是我们需要根据观察到的文档集合中的词来学习估计的。
学习步骤如下:
(1)应用贝叶斯统计理论中的标准方法[6],推理出有效信息P(w|T),确定最优主题数T,使模型对语料库数据中的有效信息拟合达到最佳。
(2)初始时为文本中的每个词随机分配主题Z(0),统计第z个主题下的词项t的数量,以及第m篇文档下出现主题z中的词的数量。
(3)每一轮计算p(zi|z-I,d,w)这里i=(m,n)是一个二维下标,对应于第m篇第n个词,即排除当前词的主题分配,根据其他所有词的主题分配估计当前词分配给各个主题的概率,根据这个概率分布,为该词采样一个新的主题Z(1)。同样更新下一个词的主题。直到每个文档下Topic分布θm和每个Topic下词的分布ψk收敛。
3基于VSM和LDA模型的新闻分类
3.1基于VSM和LDA模型的文本相似度计算
(1)对于文档di,dj,由向量空间模型(VSM)进行预处理,得到的文本的特征词向量di_VSM=(w1,w2,…,wN)和dj_VSM=(w’1,w’2,…,w’N),N为特征词个数。
3.2基于VSM和LDA模型的新闻文本分类
本文改进的KNN算法的具体过程如下[8]:
输入:待分类新闻文本d和已知类别的新闻文本D;
输出:待分类新闻文本d的可能类别。
(1)对d和D集合进行预处理,构建其特征向量和主题向量;
(2)对d中的每个新闻文本,采用公式(3-3)计算其于D中每个新闻文本的相似度;
(3)从中选择与d相似度最大的K个文本;
(4)对于待分类文本的K个邻居,依次按公式(3-4)进行计算d隶属每个类别的权重。
W(d)=∑Tj(di)*Sim(d,di)(3-4)
其中,y表示d的特征向量,Tj(di)表示指示函数,指示是否是同一类别,即di是否属于Cj,若是,则值为1,否则为0。Sim(d,di)表示待分类文本与邻居di的复合相似度。
(5)比较每个类的权重,将权重最大的类别定为d的类别。转入(2)直至所有待分类文本分类完成。
4实验结果及分析
4.1文本分类的性能评价
评价文本分类算法的有两个指标:准确率(Precision)和召回率(Recall)。由于准确率和召回率是分别从两个不同的方面来评价分类效果,所以一般采用F_measure来评估分类效果,如公式4-1。
4.2文本分类实验结果及分析
W(d)=∑Tj(di)*SimVSM(d,di)(SimVSM(d,di)为公式3-1所求)(4-2)
最终确定实验的参数如下:KNN的K值取20,主题数K=30,Dirichlet先验参数选取经验值α=1,β=0.01,Gibbs抽样次数设为5000;VSM和LDA模型线性结合参数λ设置为0.8,实验效果如图2所示。
从图2中可以看出,改进后的KNN分类算法在军事、体育、旅游、教育、娱乐、财经六个方面都较传统KNN分类算法好一些,因为,传统KNN算法只是单纯第从文字层面来计算两段文本之间的距离,而将VSM结合LDA模型后,既可以较完整地保留文本的信息,又可以提取语义层面的信息,这样能更精确地计算两段文本之间的相似度。
5总结与展望
本文提出了基于VSM和LDA模型相结合的KNN分类算法,与传统KNN分类算法相比,引进了LDA模型,从而在计算两段文本之间的距离时融合了语义层面的相似度,在相似度计算方法上进行了改进,实验也验证了改进后算法的有效性。
[1]张宁.使用KNN算法的文本分类[J].计算机工程,2005(04).
[2]G.Salton,A.Wong,C.S.Yang.AVectorSpaceModelforAutomaticIndexing[J].CommunicationsoftheACM:Volume18Issue11,1975(11).
[3]王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘[J].中文信息学报,2005,19(03):87-93.
[4]BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].theJournalofmachineLearningresearch,2003(03):993-1022.
[5]赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J].小型微型计算机系统,2013(04).
[6]董婧灵,李芳,何婷婷.基于LDA模型的文本聚类研究[G].2011.
在高中英语教学中,学生阅读能力与写作能力是教学中的两项重要内容。传统的教学模式下通常会认为读写技能的培养是相对独立、彼此分开的,很少会有教育工作者将这两种技能的教学放到一起。然而,这种观念却有失偏颇,在有效教学模式的指引下读写技能的培养能够很好的实现整合,将两种技能的训练融合到一起不仅能够让两者间实现相互促进,还能够有效地培养学生的综合语言能力。本文将以具体例证为参考,谈谈高中英语读写技能整合教学模式研究。
Intoday’sageoffasttravel,theworldseemsasmallerplaceandtosomepeople,alessexcitingplace.Fiftyyearsagopeoplewhodidn’ttravelthoughtofothercountriesasveryfarawayanddifferent.PeoplethoughttheFrenchalleatgarlic,theItaliansalleatspaghetti.AndtheAmericansalldrinkCocaCola;thesedefiniteideasofothernationalitiesarecalledstereotypes.ButdowehavethesamestereotypestodayPeopletravelmore,weallwatchthesameTVprogrammers,andideastravelquicklytoo.NowadayseveryoneeatsgarlicandspaghettianddrinksCocaCola.Everyonelistenstothesamemusic.Wearsthesamefashions,buysthesamecars.Theyjustdoitinadifferentlanguage!
二、读后研讨与文本分析
三、写作实践与初稿评改
精读这篇短文并且展开较为透彻的文本分析后,学生基本都能够很准确的把握住文意,这是学生阅读能力得到良好培养的体现。读写技能整合教学的step3便是写作实践的展开。在范文的阅读与分析结束后,笔者让学生们以travel为话题,可以从不同角度与不同方面来描述一下自己的想法与感受。
摘要:通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的
>>中文词语语义相似度计算基于中文分词的文本相似度动态规划算法使用概念描述的中文短文本分类算法词汇语义相似度算法研究及应用基于模糊相似度的RPCL文本聚类算法一种实体描述短文本相似度计算方法基于语义指纹的海量文本快速相似检测算法研究语义与统计相结合的中文微博相似度计算方法面向社区问答的中文短文本分类算法研究一种基于WordNet语义相似度的改进算法一种基于本体的语义相似度算法研究中文文本相似度在商业网络中的应用视频语义相似度网络研究一种基于HNC理论的文本相似度算法基于标题与文本相似度的网页正文提取算法*英语法语单词相似或相同词源学研究“作”和“做”的语法语义特征分析基于句法语义特征的中文实体关系抽取中文自由短文本信息抽取方法的研究基于标记样本和相似度调整的k均值算法在文本聚类中的应用常见问题解答当前所在位置:l.
DONGZhen-dong,DONGQiang.ChineseinformationdatabasebasedonCNKI[EB/OL]//heenage,com/html/dex.html.(InChinese)
[7]ISLAMA,INKPEND.Semantictextsimilarityusingcorpus-basedwordsimilarityandstringsimilarity[R].Ottawa:UniversityofOttawa,2008.
[8]LIYH,MCLEAND,BANDARZA,etal.Sentencesimilaritybasedonsemanticnetsandcorpusstatistics[J].IEEETransactionsonKnowledgeandDataEngineering,2006,18(8):1138-1150.
[9]刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届语义学研讨会论文集.台北:台北中央研究院,2002:149-163.
LIUQun,LISu-jian.Hownet-basedlexicalsemanticsimilaritycalculation[C]//ThirdSemanticsWorkshopProceedings.Taipei:AcademiaSinica,2002:149-16.(InChinese)