社交媒体文本分析范文

导语:在社交媒体文本分析的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。

【关键字】微博网络爬虫情感识别情感分类支持向量机

引言

鉴于自主采用Java语言开发的新浪微博的情感识别与分类系统,对中文微博的情感进行识别与分类研究。系统使用爬虫技术[1],抓取微博的文本内容,然后进行分词,去停用词,文本规范等预处理操作,再抽取情感特征,对文本情感识别与分类,最终输出分类结果。

1.1文本获取及预处理

对微博数据资源的获取有两种形式,一种是用户以普通文本形式直接在系统前台相应位置输入待分析的文本,系统可以自动进行情感识别与分类;另一种是用户以微博文本URL形式输入,系统对用户输入URL连接采用网络爬虫技术抓取微博正文内容。

网络爬虫结构先将用户输入URL作为爬虫起点,通过web协议(主要是HTTP协议)采集页面,使用多线程或并列技术获取网页数据信息,网络爬虫结构也提供了链接过滤模块(过滤掉不符合URL规范的链接),页面数据库模板(存储已经爬取到本地的原始页面数据,以备预处理阶段建立索引使用)。

为了提高分类的准确率,减少获取文本内容不必要干扰,对文本进行预处理操作十分必要。系统的预处理操作主要包括:

1.文本规范化处理,判断待处理的文本是否含有由两个#组成的话题标签,若有则删除两个#及它们之间的文字内容。

2.使用正则表达式判断微博文本是否含有以下三种含@微博标签,若有将它们删除①以@开头,以:结尾②以@开头,以空格结尾③以回复@开头以:结尾。

3.判断英文词语是否含有感彩,删除不必要的英文词语。

4.用中文描述替代含有感情的“?”和“!”去除一些标点符号。

5.使用得到普遍认可的支持Java开发语言的ICTCLAS分词工具分词,去除停用词。

1.2文本特征抽取

文本特征抽取[2-3]是从文本中选取一部分能够反应其内容信息的特征词汇并计算其特征权重。特征抽取的主要目的是为了降低向量空间的维度,消除无关特征的噪音,通过选择可区分性强的少量特征来提高分类器的分类精度和效率。常用的特征选取方法有:文档频率、信息增益法、期望交叉熵等。文档频率[4](DocumentFrequency)一种简单的特征约减技术,常用自动特征选择,通过设置目标特征的文档频率阈值来进行特征的抽取。DF是含有该目标特征的文档数与所有文档数的比值,可表示为

信息增益法[5]是指文本包含该特征项与不包含该特征项时的信息熵的差值,根据所获信息增益的多少筛选有效特征,已成为机器学习领域应用较为广泛的特征选择方法。信息增益法计算公式可以表示为:

由于当特征数目较少时,使用该方法得到的数据稀疏,分类结果会不理想,因此本文首先对预处理后待分析的文本里出现的每个词计算其信息增益,设置一个阈值,抽取特征词,按照信息增益值降序选择特征项组成特征向量。

期望交叉熵[6](ExpectedCrossEntropy)反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。

词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。

期望交叉熵计算公式:

1.3文本情感识别与分类

采用基于朴素贝叶斯主客观句识别方法[7]和支持向量机的分类方法[8-11]对文本分类。朴素贝叶斯方法是一种基于事件概率简单而误差率较小的分类方法。基本原理是:在事件相对独立的条件下,事件A在事件B发生的条件下的概率且与事件B在事件A发生的条件下概率是不相同的。及文档A属于Bi类概率表示为

系统应用思想:对有已知类别集合S(x1,x2,…,xn),求在待分类项出现的条件下,集合中各个类别出现的概率,哪个类别的概率值大,就认为待分类项属于那一类别。并将对每个特征项主客观句的条件概率计算结果输出,作为支持向量机分类器的输入值。

系统的工作流程图如图1所示。

二、实验分析

使用第二届自然语言处理与中文计算机会议所提供包含4000条已经标注是否含有情感色彩的中文微博语料,含有13252个句子,且主观句中又表明了所属具体情感类。情感类别分为7个类别,分别是:喜好、安乐、惊奇、厌恶、悲哀、愤恨和恐惧。

选择这些数据作为系统测评数据主要是与系统测试结果进行比较,核实评价实验结果的召回率(R),准确率(P),性能评价指标F值。求解公式如下所示:

系统将实验测评数据首先进行预处理,对其进行规范化、分词去除停用词、抽取情感特征,然后采用朴素贝叶斯方法,使用其公式计算结果来识别主观句,支持向量机方法先将抽取的特征词转换成向量形式,再将向量化后的文本放到向量机的模型中,最终输出分类结果。通过计算支持向量机的情感分类方法召回率达到74.4%,准确率高达63.76%,F值达到0.6534.

实验中采用准确率,召回率,F值测评指标,对常见的情感特征抽取方法[16]实验结果进行了对比,见表1,通过对比朴素贝叶斯和支持向量分类方法对主客观句的识别结果,得出结论:本实验中对主客观句的识别朴素贝叶斯方法比支持向量机方法的实验结果更好。因为支持向量机方法准确率虽更高,但召回率较低。

实验结果见表2。对已识别的主客观句,我们采用支持向量机的一对一的多步分类方法及一对其余的一次分类方法进行情感分类。

实验结果见表3。实验结果表明:一对一多步情感分类方法效果优于一对其余一次分类。因为一对其余分类方法可能出现重叠现象或因不可分类现象而引起数据集的抖动。因此实验最终选择支持向量机的一对一多步分类方法。

三、结语

微博作为网民在互联网主要活动之一,逐渐从各个方面影响着人们,网民带有情感的言论对各行各业都有着不可估量的使用价值。因而对微博文本的数据分析研究有一定的社会意义。

通过查阅文献发现基于朴素贝叶斯识别主客观句的方法及基于机器学习支持向量的方法有较高的精度。而由于针对中文微博的研究大部分是理论性的研究,因此本文通过构建系统,将基于朴素贝叶斯的识别主客观句个方法及支持向量机的方法的研究思路实践化。实验结果对企业、政府及广大网民均有重要的社会意义。

展望:

1.后期会打破仅在初步解决微博文本的情感识别和分类问题的研究,接下来会投入对用户的图片信息,链接的视频声音信息进行研究。

2.本文去除英文词语,采用的是人工标注方法。鉴于部分国人倾向于有使用英文的习惯,所以会不断的完善系统情感库,或设计系统能自动翻译,以此减少人工工作量。

参考文献

[1]YANGYuekui,DUYajun,HAIYufeng,etal.Atopic-specificwebcrawlerwithwebpagehierarchybasedonHTMLDom-Tree[A],AsiaPaciicConferenceonInformationProcessing(APCIP2009)[C].WashingtonDC:IEEEComputerSociety,2009:420-423.

[2]张彪.基于关联分析的文本分类特征选择算法[J].计算机工程.2010(22):184-186.

[3]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2011,26(1):73-83.

[4]DaiLiuling,HuangHeyan,ChenZhaoxiong.AComparativeStudyonFeatureSelectioninChineseTextCategorization[J].JournalofChineseInformationProcessing,2004,18(1)26-32.

[5]李海瑞.基于信息增益和信息熵的特征词权重计算研究[D].重庆大学,2012.

[6]廖一星.文本分类及其特征降维研究[D].浙江大学.2012

[7]蒋良孝.朴素贝叶斯分类器及其改进算法研究[D].中国地质大学,2009

[8]杨鼎,阳爱民.一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J].计算机应用研究,2010,27(10):3737-3739

[9]A.Basu,C.Watters,M.Shepherd.SupportVectorMachinesforTextCategorization.Proceedingsofthe36thHawaiiInternationalConferenceonSystemSciences,2003.

[10]赵晖.支持向量机分类方法及其在文本分类中的应用研究[D].大连理工大学,2006.

[11]张博.基于SVM的中文观点句抽取.[D].北京.北京邮电大学,2011

[12]Youngjoongko,PjinwooPark,PjungyunSeo.AutomaticTextCategorizationusingtheImportanceofSentences[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.

[13]韩忠明,张玉莎,张慧,等.有效的中文微博短文本倾向性分类算法[J].计算机应用与软件,2012,29(10):89-93.

[14]张艳辉,杜文韬,刘培玉,等.基于词典的微博的倾向性分析[C].第五届中文倾向性分析评测研讨会,2013:50-52.

【关键词】数据可视化;大数据;商业智能;数据挖掘

1.时代背景

2.数据可视化的作用

在信息科学与知识管理中,DIKW(Data,Information,Knowledge,Wisdom)体系作为最基础的模型,在数据处理流程中完成从数据到智慧的转化。人们急切的需要能展示演绎数据的工具,并且能够传达数据身后真正的知识与智慧的工具。在整个转化过程中,可视化于沟通,传递,表达方面表现出明显的优势。

数据可视化运用计算机图形学,图像处理等技术,并以其在视觉感知与人脑认知上的优势使美学因素融合在数据分析中。优秀的数据信息图甚至可以达到艺术的层面,令人赏心悦目。其在数据处理流程中持续的优势,使数据可视化交互工具市场逐步做大。

数据就是石油,传统的各类领域中不被重视的数据重新归纳总结会释放出巨大潜力。新闻中的数据信息可以归纳为信息图表,再与其他新闻进行分析整合,人们往往可以从中有收获。政府机关的数据通过有效整理并进行可视化,可以增加其透明度,民众可以更容易获取有效信息。企业数据可视化,可以对整个企业运营流程有很好的掌控,便于管理与盈利。网络数据及公共资源的潜在价值也极大,各类社交网站开放的API可以供开发研究人员挖掘人们生活消费习惯,甚至可以通过文本分析并进行可视化发现流行病的爆发趋势,购物网站对用户已购货物记录进行地域偏好分析,也可获得有价值的情报。

3.主要应用

3.1文本可视化

将文本信息提取技术与可视化相结合的文本可视化可以辅助用户将文本中的信息简洁地呈现出来。原始文本经过文本信息挖掘,视图绘制和人机交互,这便是基本的可视化流程。在诸多网站上,文本可视化的标签云技术已越来越常见,其为基于关键词的最简单的文本可视化技术,用颜色和字体的大小体现关键词于文本中的分布差异,衍生的Wordle技术改进了空间布局,提升了美学效果。在进行信息检索时,也可以使用TileBar,Sparkler等可视化方法来提升检索效果。除此之外,文本信息中还包含了大量的人类主观信息,可以在RSS新闻内容,社交平台中挖掘用户情感倾向信息,帮助调查者从宏观角度进行分析并为决策提供依据。

3.2多媒体数据可视化

大数据时代,人们早已对半结构化数据及非结构化数据充满了好奇。图像,视频,音频中的数据价值推动了多媒体数据的可视化。比如社交照片中群体成员之间的关联多使用了海赛图方法;视频的可视化则经常使用将图像堆叠成立方的方法,为抽取视频中的运动信息提供方便;音乐的可视化如今也多是媒体播放工具的一个功能。

3.3商业智能的数据可视化

如今的大量在线商业数据具有强烈的跨媒体特征与丰富的时空地理属性,用户的消费日志包含了大量个人信息,这些都催生了该领域的可视化发展。当前商业智能的数据分析大多借助于OLAP的多维分析模式实现,采用可视化技术进行数据探索。从最早的柱状图、饼图、网状图等简单图表,发展到呈现公司状态与商业环境的仪表盘、子弹图,新成长的技术能有效地传达数据背后的知识和思想。同时随着Tableau,Spotfire等软件的推广,可视化极大推动商业智能的大众化,降低了普通人进行数据分析的门槛。

3.4Web端可视化

Web端的可视化是通过HTML,CSS,Javas-cript技术,在网页上实现可交互的可视化作品及时全面显示信息。Web端的可视化可以提升用户效率,使选择操作更加方便,感官更加舒服。D3.js就是一套面向Web的数据可视化的Javascript库,具有极大的设计灵活性和可移植性。国内开发的DataV.js同样出色,可以便捷的调用且兼容各类浏览器。

4.数据可视化的注意点

可视化虽然是非常好的了解数据的方式,不过也很容易以错误的方式执行从而背离了其价值所在。为充分展示信息而不顾图表的整体协调,想要包含更多的信息效果却适得其反,这样做很容易使图表缺乏美感。有限的仪表盘空间要包含的是重要的且值得优先考虑的数据,且当图表显示过多的信息时,过于紧密的布局很容易显示出错误的信息。而另一种错误则是为了追求画面的美观,却使数据内容的表达不佳。所以在可视化的过程中,目标的确立是最为基本的,专注于自己的目标有助于更好地传递表达数据,同时与图表的美观之间也能达到一种平衡。

[1]涂子沛.正在到来的数据革命:大数据[M].桂林:广西师范大学出版社,2012.

“110米栏是综合考验人体极限的一项运动,不仅是刘翔,曾经卫冕冠军的罗伯斯、阿兰·约翰逊、马克·麦克科伊都在男子110米栏项目中一个接一个地出现‘意外’。这些‘意外’的背后,只不过是退赛前的共同规律罢了。”

一手打造网络体育社区,一手出品足球电视节目的“欢呼吧”创始人兼CEO陈昊认为,用“足球魔方”的文本分析和数据挖掘技术,足以将各种体育现象背后的实质提炼出来。

给你好看的体育

陈昊把与查立的认识归结为一种“缘分”。在一场起点创业营举办的派对中,不同于那些不断向查立演说项目方案的创业者,陈昊更多的只是静静站在一边旁听,甚至忍不住开口帮助查立回答一些创业的基础问题。虽然与查立之间的交流很少,但仅仅这样的一次会面,却让查立记住了他,也邀请他入驻了起点创业营。

在他看来,国内体育传媒严重滞后于发达国家的水平。“国内体育赛事的转播模式十分单一,而且深度、专业的体育内容不多。”也正因为存在诸多问题,才让陈昊嗅到了商机。做国内跨媒体体育社交服务商的想法也刚好迎合了查立对于互联网的判断。

有激情、有梦想、执行力强、善于思考……是陈昊给记者最直观的印象,刚好吻合了起点创业营喜爱的创业者的特征。而更为重要的,是一份破釜沉舟的决心:“为了创业,我鼓励我们团队全部都搬到园区附近租住,以便全心全意地实施我们的创业大计”。

让创业不再孤独

虽然陈昊在此之前已经从事体育产业十几年,并追随“温格教授”的足迹,专赴足球经济最发达的英国拿下了足球营销的MBA学位,然而要落实到具体的操作层面,遇见具体的事情时,依然会有很多困惑。

毕竟,入驻起点创业营,要获取的不仅是较为低廉的租金和办公成本,更重要的是内在的“软件”优势。

“虽然在起点创业营里的诸多创业企业是来自不同的领域,但通过时不时的交流,可以对其他行业有更深的了解,同时对于激发自己的灵感也很有帮助。”对于善于学习的创业者而言,学习的机会总是自己给自己的,这点在陈昊身上尤为明显。这也是查立青睐“欢呼吧”的重要原因。

1.经营管理不重视

2.推送内容不全面

3.受众互动不充分

1.受众黏合

2.内容推送

3.受众分析

4.受众参与

Abstract:WhilethetouristdevelopmentofWorldCulturalHeritageSitesbringsgreatprofittolocaleconomy,problemsinevitablycometooccur.Tosolvetheproblem,thisessaytakestheKaipingDiaolouWorldCulturalHeritageSitesasanexample,collectsthetouristcommentsandjournalsfromInternetmedianamelyTuniu,Tongcheng,Lvmama,Mafengwo,BaiduTourism,concludesthetouristfeedbackandneeds,soastoanalyzetheproblemstakingplaceintheprocessoftourismdevelopment.HopethisessaygivesaninsightandinspireseffectivedevelopmentandpreservationofKaipingDiaolouWorldCulturalHeritageSitesinthefuture.

关键词:旅游数字足迹;开平碉楼与村落世界文化遗产地;游客需求;游客旅游感知

Keywords:touristfootprint;KaipingDiaolouWorldCulturalHeritageSites;touristdemand;touristperception

0引言

2研究设计

2.1案例地概况

3开平碉楼与村落世界文化遗产地旅游数字足迹特征分析

3.1不同阶段搜索需求对比

3.2媒体舆论分析

3.3游客旅游感知分析

②服务管理方面,游客认为门票性价比低,但对售票方式感知较积极。单纯感知服务绩效理论认为,顾客对产品质量的主观评价与消费者期望无关[15]。说明景区的营销未能引起游客共鸣;景区内辅助设施与门票价格不相配套。

4研究结论与展望

4.1研究结论

利用旅游数字足迹,对开平碉楼与村落世界文化遗产地的开发保护现状进行问题分析,发现目前遗产地存在着一系列问题。而游客在各媒介所“留下”的旅游数字足迹即游客的出行信息、对旅游目的地的感知等数据,对遗产地的建设具有重要参考价值,因此可以运用到开发与保护中去。

①开平碉楼与村落世界文化遗产地旅游产品单一,缺乏特色。

游客对开平碉楼与村落世界文化遗产地的产品需求呈现多样化特征,但遗产地产品的文化性、特色性的开发格局尚未形成。这反映了景区在开发旅游产品时,只局限于现有的旅游资源,没有挖掘其潜在文化价值,忽略与周边产品或景点的联系。

③网络反馈、互动平台和监督机制不完善。

④社会影响力有限。

4.2研究启示

①利用“旅游数字足迹”,为研究世界文化遗产地提供有效数据分析。

本研究证明,“旅游数字足迹”具有客观性、时效性、成本低等特点[16],以庞大的数据为基础,能够深入挖掘开平碉楼与村落世界文化遗产地在开发与保护过程中存在的问题,进而有效解决问题并跟进遗产地问题的改善情况。

②依托“旅游数字足迹”,完善网站信息系统。

③构建网络反馈、互动平台和监督机制。

构建完善的景区网络反馈平台,增设景区与游客间的互动板块,逐渐形成监督机制,保证监督效能。使开平碉楼与村落世界文化遗产地的开发与保护透明化,提高顾客的忠诚度与满意度,做好口碑营销。

④加强开平碉楼与村落世界文化遗产地数字化管理。

建立数字景区系统,完善景区监控系统、售检票系统、电子显示屏等设施,抓好数据源头工作,有效监控客流;挖掘网络后台的大数据,线上信息引发线下消费,线下消费反馈线上口碑,从而提高景区整体发展水平和游客满意度;挖掘游客背景信息,数字化分析景区市场导向和潜在市场,针对性开发新型旅游产品。

参考文献:

[1]中国互联网信息中心(CNNIC).第36次中国互联网络发展状况统计报告[R].2015.

[2]季良纲.“互联网+”与信息科普化[J].科协论坛,2016(7):17-20.

[3]潘值强,梁保尔.基于旅游数字足迹的目的地旅游形象游客感知研究――以新疆天山世界自然遗产为例[J].北京第二外国语学院学报,2015(5):40-48.

[4]刘智兴,马耀峰,高楠,张岩君,王玎玎.山岳型旅游目的地形象感知研究――以五台山风景名胜区为例[J].山地学报,2013,31(3):370-376.

[5]周晓丽,李振亭.基于百度指数的搜索引擎中旅游行为研究――以西安典型旅游景区为例.天津商业大学学报[J].2016,36(3):11-16.

[6]姚占雷,许鑫,李丽梅,等.网络游记中的景区共现现象分析――以华东地区首批国家5A级旅游景区为例[J].旅游科学,2011(2):39-46.

[7]王媛、许鑫、冯学钢.基于文本挖掘的古镇旅游形象感知研究――以朱家角为例[J].旅游科学,2013(5):86-95.

[8]ReillyMD.Freeelicitationofdescriptiveadjectivesfortourismimageassessment[J].JournalofTravelResearch,1990,28(4):36-43.

[9]AndsagerJL,DrzewieckaJA.Desirabilityofdifferencesindestinations[J].AnnalsofTourismResearch,2002,29(2):401-421.

[10]李君轶.旅游数字足迹:在线揭示游客的时空轨迹[J].思想战线,2013(3):103-107.

[12]李艳,严艳,O欣.基于旅游数字足迹的景区空间结构分析[J].干旱区资源与环境,2015,29(6):176-182.

[13]周晓丽,李振亭.基于百度指数的搜索引擎中旅游搜索行为研究――以西安典型旅游景区为例[J].天津商业大学学报,2016,36(3).

[14]张维亚.文化遗产地旅游者消费行为数字足迹特征与机制研究[D].南京师范大学,2015.

老板问:“怎么衡量社交给我带来的价值,而不是一波夸夸其谈的潮流?”

社交答:“对内我是协作的好工具,对外我是开拓市场的好帮手,重点是你们怎么用我。”

虽然有人质疑,有人标榜,但人们相信商业已经进入到社交化时代,结果如何,那得看企业用什么?如何用?

一个硬币总有两面

“一位办公室职员打开一块雀巢奇巧巧克力,结果发现包装纸竟是猩猩的一只手指”,对于这段2011年在线视频里的场景,雀巢的高管和绿色和平的拥护者都该留有深刻印象,这正是雀巢在社交媒体上遭遇的一次声势浩大的抗议活动。因为雀巢的产品中要用到棕榈油,而其棕榈油的供应商正在摧毁印度尼西亚的热带雨林,破坏猩猩的生存环境。

说完发生在瑞士雀巢公司的社交事件,我们再到澳大利亚的卡夫食品公司,看看他们是如何利用社交做市场决策的。

作为世界第二大的食品和饮料制造公司—卡夫食品公司,他们生产着一款叫Vegemite的咸味酱。令人惊讶的是几乎70%的澳洲人早起的第一件事,除了冲杯咖啡外,就是在烤面包上抹上一层Vegemite咸味酱,这种咸味酱成为了澳大利亚的国民食品。

为了能更好地了解消费者的需求以进行潜在的产品升级,卡夫食品公司与IBM携手,挖掘其全球的Vegemite品牌消费者的真实想法。双方合作利用基于文本分析的工具,在10.5亿条博客、论坛和讨论版的内容中抓取了47.9万条关于Vegemite的讨论信息,通过对这些社交网站上的非结构化数据的深层分析发现,大家谈论的热点并不是Vegemite是否过咸,也不是产品的包装,而是不同的吃法,以及在其他国家怎么买到Vegemite。

同时,语义分析显示出了大家普遍关心的三个趋势:健康、素食主义和食品安全。在关于健康的讨论中,一种学名为叶酸的维生素B复合体被频繁提到,叶酸为人体代谢所需,对孕妇尤其重要。这个信息对于卡夫食品公司调整营销策略有很大的启示,也为卡夫进一步打开孕妇消费者市场提供了依据。

从这个例子中人们不难发现,对企业来说,市场策略的制定应该更注重最终用户的反馈和其社会化网络的参与,这不仅能增强品牌的忠诚度,提升企业内涵,还能为发现潜在用户提出有效的方案。

而在以上这两个案例中,社交其实在扮演着不同的角色,可能对于雀巢来说,他们因此遭受了舆论的“攻击”,不得不公开道歉并做出承诺改变。而卡夫食品公司却由于主动利用社交工具,挖掘了潜在的消费市场。社交红与白的面孔不断地展现在企业面前。

当然你也可以认为,以上这些案例只是凤毛麟角或是带有某种宣传的意味,或者质疑这只是市场营销的一种手段,这样的企业社交应用很狭隘。但你无法否定的是,社交已经成为企业不可忽视的因素,“社交商务、企业化社交、社交营销”这些词汇层出不穷,都在表明这一市场正在发酵。

一木不成林百花才是春

与此相对的是,中国的企业社交也逐步进入到一个新的阶段。有统计显示,截至2013年一季度末,新浪微博用户数已突破5亿,其中企业微博用户已经超过30万,包括143家世界500强企业和207家中国500强企业,该数目依然在持续增长中。可见企业社交这池春水已彻底被激活。

然而,多少带着些洋味道的“企业社交”本土化做得如何?又是否能被中国的企业和员工接受?这种社交模式对于企业究竟能产生多大价值呢?想知道这些答案,不妨听听企业是怎么说的。

“双微”布局企业级市场

据新浪公关部毛涛涛介绍说:“为了给企业用户提供更好的产品体验,新浪微博为其提供了专业版微博服务—企业微博,并于2012年4月完成了第一轮产品升级。升级后的企业微博2.0版本,全面支持企业在微博上进行自主展示、数据分析及应用共享,除了给予企业更丰富灵活的展示空间外,还提供超过60项专业数据分析,同时我们开放了更多的第三方应用接口,为企业提供‘微热卖’等个性化应用。”

从这一连串的市场动作来看,新浪微博在商用市场上的发力是循序渐进的,以最初聚焦大量个体人群为基石,为个人和企业提供“发声”的平台,而后,转入更深层次的应用,比如提供营销方案、数据分析等企业级应用,在打造成熟的商业模式方面不断探索。

初生牛犊不怕虎

对此,北京中天威科网络技术有限责任公司(一家社交媒体管理公司,业内俗称“孔明公司”,以下简称孔明)CEO鄂威的敏感度更高:“我觉得最核心的一件事情是我们跟社交平台的商业逻辑是什么,现在看有两种:一种是抢平台的钱,一种是帮平台赚更多的钱。第一种可能不太好做,第二种不仅会跟平台有很多合作,还会得到支持,这是我从做这家公司一开始就已经想透的一个问题,我们绝对不能与平台做对立的事情。”

谈到核心的数据分析,问题就来了,现在火热的大数据不正在做着这件事情吗?

IT大巨头们的社交心思

虽然不少人认为IT巨头们尾大不掉,布局社交策略有些晚,也有人会认为发源于互联网,以移动终端带动的社交对于传统的IT企业来说基因不对,但已经没有人会质疑,社交媒体得到了迅猛增长并且很可能将继续增长,也没有人会质疑社交媒体的影响会更加深入和广泛。所以,企业们都在努力寻求从海量数据中获取洞察的方法。

在2013IBM移动社交商务高端峰会上,IBM软件集团大中华区协作解决方案总经理李贵兴表示:“IBM不断完善社交商务平台的能力,将人员、内容、数据等各方面资源连接起来,满足企业转型成长所需的移动社交力。”

传统软件企业不甘示弱

如果处于初创期的中小企业认为自身的互联网“基因”是不可磨灭的,那么也许他们并不惧怕被市场抛弃,如果IT大鳄们通过大手笔收并购,以及行业底蕴发力社交市场,他们一定也不畏惧起步晚、不够灵活的质疑。而对于本土传统的软件公司来说,他们是否能搭上驶向企业社交春天的列车呢?

企业内部的这种改变,王甲佳也颇有感受:“现在很多企业的员工多是80后,到底怎么管理?结论是‘只能理,不能管’,现在90后都大学毕业成为劳动主力了。传统的方法肯定不行,布置工作你可能只需告诉他一个大概的东西,千万不能描述成一、二、三、四,这是针对于大多数中小企业的。大公司可能有差异,但是很多管理问题都是不注重人员组成的特点而造成的,沟通、关怀,企业文化越来越重要,社交应该是一个突破口。”

他补充道:“我们把互联网上好的东西跟企业的应用结合起来,然后糅合和到一起,对于传统软件企业来说,企业SNS要做的就是利用自己的既有优势,找到与SNS的结合点,这点说起来很容易,但真正实现起来很难。”

与丁洪震有类似这样想法的企业不少,据了解,金蝶、用友、北森等传统软件企业分别推出“云之家”、“企业社区”、Tita等产品,通过新产品与企业的核心ERP等系统进行整合,引导并推动企业员工使用,他们锁定的目标大多是大中型客户。

开往企业社交春天的列车

通过以上的分析,可以看出,企业社交的面孔不只一面,并不仅仅因为它对企业产生作用和效果不同,还因为不同的企业本身都是独立不同的个体,有自己核心的竞争力,无论是国外的IT巨头还是国内的传统软件公司,他们毫无疑问都带着企业级IT的“标签”,对从互联网发展而兴起的社交,多少有一些水土不服。从目前来看,社交的应用和市场布局不过是他们众多子标签的一个,毕竟主营业务、核心竞争力还不在此。

对此,从事投融资顾问的上海股中商务咨询有限公司副总裁李靖表示:“国外的企业工作方式更强调协作,这也解释了为什么Yammer在美国发起并得到了很好的应用,而在国内越大的企业越强调层级,强调组织结构,并不是扁平化的,那么社交能够起多大的作用?也许是建立更人性化的企业文化,也许是加强大家的交流,仅此而已,涉及核心的业务现在还不成熟。”

对于从事企业社交的公司实力,从资本和市场角度看,李靖会通过几方面指标做衡量:第一、该公司主攻客户群体的需求是否是刚性的,如果一个只有十几个人的小团队,为他们提供沟通的协作平台,需求是非常有限的,因为这类企业的员工见面交流就行了,销售业绩可能才是他们的痛点;第二、该公司的技术壁垒高不高,如果产品具有可复制性,也就是技术壁垒不高的话,那就要再考虑两个问题,一是市场蛋糕是否足够大,是否随便切一块儿就足够;另一个就是本土的市场能力是否够强,比如在国内,谷歌与百度是没法比的,如果两边都不强,夹缝中求生存,这类公司活下去就很难。这也是对新进企业社交领域公司的警示。

如此说来,这个市场很矛盾,一方面从用户的角度来看,大家急迫地需要社交的一些应用来解决工作问题,而从供应商的角度看,目前还缺少成熟的解决方案。这也是李靖走访多家公司所看到的市场现象。

另外,不少企业也在考虑社交与现在的云计算、大数据、移动互联网等技术应用如何结合,甚至与智慧城市做一些有效的整合。在这个过程中,社交更多的是起一个“剂”的作用,或者作为一个数据收集和获取的前端,在后端企业可以进行数据计算、分析,或指导企业的其他业务层做出相应的改变。这方面,传统的IT企业会更具优势,因为他们掌控的资源更具竞争力。因此,在企业级市场,社交能发挥什么力量,非常值得人们期待。

【关键词】台湾电影大学生认知文化传播

2009年上映的《海角七号》一改台湾电影的低迷境况,使台湾电影重新进入公众视野,随着互联网的发展以及电影院线制播制度的与时俱进,大陆观众尤其是大学生群体可以看到更多的台湾电影。目前对两岸的影视文化传播研究较少,从青年角度探讨影视文化对于青年人认知台湾文化的更少。本文采用文本分析法和问卷调查法,以定量研究的方式来探究台湾电影对大陆大学生认知台湾,解读台湾文化方面的效度,以期获得有关在促进两岸文化传播方面的启示,进而更好地促进两岸的文化交流。问卷共有19道题,均为单选题,其中还涉及根据李科特五级量表设计的选择题。在调查中我们采取“滚雪球”的方式,共发放问卷240份,回收180份问卷,其中有效问卷为130份,有效率达72.2%。

本次的调查具体的样本结构如表1:

一、大学生观看台湾电影的总体形态

1、台湾电影接触情况比较

(1)是否看过台湾电影。在“是否看过台湾电影”的调查中发现,有78.5%的大学生表示“看过”,21.5%的大学生“没有”看过。可见,大学生对于台湾电影的接触率比较高。通过对性别做卡方检验发现:在0.05的显著性水平下,P=0.018

(2)看过的台湾电影。我们选取近十年10部台湾主流电影作为考察大学生对台湾电影了解情况的依据,2007年《不能说的秘密》有69.6%的大学生看过。但从真正意义上提升台湾电影在大陆的认可度的影片是2008年由魏德圣导演的《海角七号》,该片上映后一改台湾电影先前的颓废局势,同时也使大陆观众开始接触更多的台湾电影。调查的数据显示,有61.8%的大学生看过该片。《那些年,我们一起追的女孩》,大学生看过的比例高达81.4%。该片先是2011年底在网络上掀起一阵轰动,2012年年初登陆大陆院线,最终票房7580万,创下台湾电影在大陆最卖座纪录。①我们发现凡是在大陆做过较多宣传的影片,其观看率较高,如《不能说的秘密》,《海角七号》和《那些年,我们一起追过的女孩》。同性恋题材的青春电影《蓝色大门》有30.4%的大学生熟知。(见图1)

2、接触台湾电影的渠道

这里我们主要从获取台湾电影信息的渠道和观看台湾电影的渠道两个方面来研究。

(1)获取台湾电影信息的渠道。经统计发现,大学生选择“经常”使用某种渠道获取台湾电影信息的比例最高的是门户网站(26.2%),其次是“社交网站”(20%)。因此,在获取信息方面,传统媒体并不是主流,社交网站等社会化网站逐渐成为大学生获取各种信息的平台。(见图2)

(2)观看台湾电影的渠道。经调查发现,大学生观看台湾电影的最主要渠道是“网络”(有效百分比达77.8%),选择“电视”的比例为16.2%,电影院的比例仅为6.1%,这可能和台湾电影进入大陆院线市场的影片相对较少有关,致使电影院成为大陆大学生观看台湾电影最少选择的渠道。

就不同性别进行卡方检验发现:在0.05的显著性水平下,P=0.021

经卡方检验发现,不同年级、专业大学生观看电影渠道的情况在统计学意义上均没有显著差异(p值均大于0.05)。虽然不同年级的大学生在看电影的渠道选择上,依然是网络排在第一位,但是我们也注意到,大一和大三的学生通过电视观看台湾电影的比例明显高于其他年级的学生,均超过25%,而攻读硕士的大学生通过电影院观看台湾电影的比例最高,达25%,其他年级通过电影院观看台湾电影的比例几乎为0。由此可见,年龄层越高的大学生,依然保有传统的观影方式,而年龄层越低的大学生更偏爱使用新媒体作为观看电影的渠道。

二、大学生对台湾电影内容的认知比较

调查前的文献检索发现,对于台湾电影的研究多是文本分析,其中多是从台湾电影的青年形象传播、本土化、日本文化痕迹三方面的解读,因此本调查也围绕这三方面展开,以研究大学生对于台湾电影意象文化表达的认知与理解。

1、对台湾电影的整体印象认知

台湾电影的类型多种多样,不同的作品带给观众的感觉也有所不同。调查中发现,台湾电影给大学生最为深刻的印象是“清新”,“温暖”,两者选择“比较赞同”的比例均是52.9%,其次感觉很“文艺”——47.1%的大学生“比较赞同”,44.1%的大学生认同台湾电影有很浓郁的“本土”情结。部分台湾电影传达的“励志”和表现手法的“创意”性也得到约40%大陆大学生的认可。(见图3)综合比较“比较赞同”和“赞同”的比例发现,有38.3%的大学生认为台湾电影中表现的台湾“乡村文化保留较好”,而相比快速发展的现代经济,台湾电影中传播的“经济发达”形象相对较少,更多的是台湾原有的乡土传统气息。

2、对台湾电影的使用与满足情况

通过研究大陆大学生对观看台湾电影的使用与满足情况的比较来看,除“放松娱乐(均值为3.68)”和“可以看到喜欢的影片的导演或演员(均值为3.21)”外,大学生还偏好通过台湾电影来“感受台湾文化”(均值达3.48),因此,根据前文大学生78.5%的观影率来看,台湾电影可以作为台湾文化的传播者,透过台湾电影大学生会更多地了解台湾及其文化。(见图4)

研究受众需求时我们比较了看台湾电影前后,受众对台湾的了解有何变化。研究发现,大学生对“台湾的本土情怀”的了解增加最多(均值为2.2),其次依次是对“国语、闽南语及客家话并存的语言文化”(均值为2.1)、“本省人”“外省人”客家人为主的族群文化(1.89),以及“台湾人的日本情结”(1.74)的“了解有增加”。由此可见,台湾电影在很大程度上会影响大学生对于台湾文化的认知,特别是对台湾本土文化的了解上,台湾电影发挥了很大的作用。

3、对台湾电影中青年形象的认知比较

首先我们检测了“观看过”台湾电影的大学生对于台湾电影中青年形象的认知比较,发现其青年形象主要有三点(均值比较法):一是重义气(4.64),二是友爱互助(4.38),三是积极进取(4.21)。而对于“没有看过”台湾电影的大学生而言,台湾年轻人的形象主要是关心社会(4.64)、重义气(4.24)和积极进取(4)。电影中的青年形象和现实生活中的年轻人形象相比而言基本一致,即普遍比较重义气和友爱互助。

通过对“看过台湾电影”的不同性别大学生对于台湾电影青年形象的评价比较发现,男生对电影中的青年形象印象更为深刻,他们更多地认为台湾电影中的青年“叛逆张扬,迷茫堕落”。而对于“没看过”的大学生而言,女生眼湾青年更加的“不关心社会,叛逆迷茫”,而没看过台湾电影的男生则认为台湾青年是非常关心社会的。也就是说,看过台湾电影的大学生和没看过台湾电影的大学生相比,对于台湾青年人的印象略有不同,由此可见,台湾电影在影响大陆大学生对于台湾人的认知上存在一定的影响。

4、对台湾本土文化的认知比较

三、结论与讨论

本研究的目的是为探寻大学生对于台湾文化的认知与台湾电影之间的关系。第一,大陆大学生认为台湾电影让人印象最为深刻的是电影的“清新”、“温暖”之感,这与他们对电影中“重义气”“友爱互助”“积极进取”的青年形象的感受基本一致,即都是非常积极正面的印象。第二,大学生比较认可台湾电影中展现的“乡村文化”,通过电影,大陆大学生同样认为台湾较好的保留了宝岛的乡村文化。第三,大陆学生观看台湾电影的主要动机符合影视传播的功能之一——放松心情,娱乐身心,这一需求的满足程度最高,其次大学生认为满意度相对较高的是“感受台湾文化”和“了解台湾的知识(历史、地理等)”。由此可见,大学生认为台湾电影是了解台湾文化的一种方式。因此,在放松娱乐的同时,大学生希望能借助台湾电影更多地了解台湾。研究还发现,观影后大学生更为丰富且深入地了解到台湾的文化。

电影作为一种传播媒介,它所传达的台湾文化符号和人物形象会影响到观众对于现实台湾的理解。人们会在心理上认为电影所表现的尽管有夸张的成分,但与现实的台湾依然存在一定的一致性。由此可见,电影的娱乐功能促使观众观看电影,被影片的意象影响,了解到可能原本并不知道的信息,进而改善或加深他们对现实生活的一些理解。因此,台湾电影的传播对促进两岸青年的文化交流有很大程度的影响,其意义不容忽视,有待进一步探究。

view/2289329.htm.

关键词:存在感;心理需求;补偿行为;社交退缩;行为策略

一、引言

戏剧理论从个体自身角度出发,描述了个体如何主动从互动对方那里获得“存在感”[2],社会存在理论则强调了沟通媒介如何影响沟通双方获得的“存在感”[4],二者强调了存在感的感知过程中自我的主动和对方的互动这两个因素的重要作用。这种人际互动中对自我存在的感知,可概括为自我存在感的社会交互模型(见图1)。自我主动表达的是个体对“自身存在于社会或群体”的感知需求,而对方的互动则体现了个体“让对方感知到我存在”的感知需求[5]。戏剧理论和社会存在理论可以解释现实生活和网络情境中“存在感”的产生过程,并且说明了这种“存在感”是基于社会交互而产生的一种个体心理体验。

图1存在感产生的社会交互模型

二、方法

(一)访谈对象

“刷存在感”现象最初出现在网络世界的年轻群体中,而后在现实生活中也广泛发生。为保证研究取样能够提供足够信息,本研究访谈对象要求有5年以上互联网使用经验且至少是3个论坛、虚拟社区的注册用户。按照目的性取样原则,选取了5名在校大学生参与了访谈。访谈对象平均年龄22.7岁,其中男性2名,女性3名;经常使用的论坛、虚拟社区平均数量为3.7个,平均使用年限为4.2年。

(二)访谈方法

(三)研究工具

研究使用ATLAS.ti6.2软件作为定性资料的分析工具,使用界面如图2所示。

三、分析

(一)开放式编码与主轴编码

为了对个案进行深入剖析,将每一个完整的表述指定为一个“句子索引”,将整个文本资料整理成索引目录。A为某高校在读硕士,有3个长期使用的网络交流工具,平均使用年限为3.3年。访谈文本A共整理出126个句子索引(编号001~126),通过开放式编码获得61个基层编码。由于访谈涉及不同情境,因此将按照访谈主题将开放式编码和主轴编码拆分为不同模块。

句子索引数据及分析备注

009010Q:交流讨论中你发表意见后,期待别人做出怎样的反应?

A:这个看不同的场合(场合)吧,和什么话题(话题)吧。可能有些比较轻松,生活中一些比较无所谓的话,我不会期待别人给我一个什么样的回复。但是带有目的的事务(目的性事务),我可能会期待别人给我一定的回复(期待回复)。不管是好或者坏,你最好能给我提点建议。不要说太空洞的话,给我一点实质性的建议就可以了(实质性建议)。开放式编码

句子分析备忘录:

009~010句可提取的概念:场合、话题、目的性事务、期待回复、无论回复好坏、实质性建议:

2.话题指双方交流的内容、主题等,例如后文所提及的“目的性事务”就是其中一种。

概念内涵思考与推理

4.实质性建议指他人提供的、对问题解决有帮助作用的想法、意见等。

(二)选择式编码

结构一:依据“交互类型”、“交互对象”、“交互情境”、“关系需求”和“归属需求”五个范畴提炼出“存在感需求”这一核心概念及其概念网络(见图3)。存在感需求包含关系需求和归属需求,而交互类型、交互对象、交互情境则影响着存在感需求的产生。

107108112Q:你在哪些情况下会去主动回复别人?当时是怎样想的?

A:一个亲疏状态吧(亲疏状态),就是我们俩关系是不是很好(人际关系)。还有一个就是你感不感兴趣(兴趣)。还有就是很好的朋友啊(朋友),比如别人“生日快乐”呀,祝福一下人家。可能就是别人很开心的事情,你也可能会去祝福一下。再就是好关系的吧,不痛不痒的我一般不会去回复。然后就是,有些人很难过,你可能会去……

107~112句可提取的概念:亲疏状态、人际关系、兴趣、朋友、学习榜样、保持联系;

1.亲疏状态指个体与交流对方的心理距离,表现为亲近和疏远。

思维过程:个体在虚拟社区中是否主动回复对方取决于与对方的心理距离,即个体希望与亲近他人建立交流与联系,而关系疏远的他人则不会成为建立联系的选择。概念内涵思考与推理

2.人际关系指个体与交流对方建立的关系质量,亦即个体与对方的心理距离。概念内涵

3.兴趣指交互过程中个体希望深入了解、加入或参与的程度。

4.朋友指与个体有共同兴趣或共同经历的重要他人。

5.学习榜样指在交互主体上能够帮助个体进步、获得技能的他人,例如学长、老师等。

6.保持联系指个体维持与他人联接的长期存在,包括朋友、新认识的人等等。

结构二:文本分析同时发现了个体无法获得存在感时的心理、行为表现。此时,个体的情绪特点可提取出范畴“消极体验”。但在面临存在感体验失败时,个体在不同的条件下(即交互类型、交互对象、交互情境)会表现出两类行为――“社交退缩”(例如36句、46句、77~80句)和“补偿型存在感”(例如16句、24句、82~86句)。补偿型存在感指个体通过再次提问、转移对方注意、主动插话、参与群体新话题等方式补偿之前缺失的存在感。与此同时,29~36句显示个体还会改变交流方式即进行“策略转变”。这一部分分析可提炼出“存在感体验失败”这一核心概念(见图4)。

(三)多个案分析

按照扎根理论方法的理论性抽样(theoreticalsampling)原则[10],利用个案研究的初步结果,继续进行更深层次的多个个案分析,对个案分析的结论进行验证和补充。首先,通过对全部5个个案的扎根理论分析发现:(1)存在感需求这一核心概念网络得到了验证;(2)“自发型存在感”、“主动型存在感”、“补偿型存在感”得到了验证。(3)存在感缺失的关系网络也得到了验证。其次,部分范畴的内涵及其相互关联得到了扩展:(1)个体通过群体途径产生自发型存在感,是以自我与群体的强烈联接为前提的。(2)在自发型存在感较弱时,个体同样会采用一些强化策略(例如,主动公开匿名或群体成员身份)来确定这种存在感,此时自发型存在感就转变为主动型存在感。此外,补偿型存在感产生过程中,个体同样会采取印象管理策略。因此,个体使用的各种策略可以进一步提炼出“策略使用”这一范畴(见表3)。(3)存在感体验失败时,个体体验到消极情绪的同时还会发生态度转变,即对导致其存在感获得失败的人、情境的态度更加消极。但在获得存在感时,则未发现积极态度转变。结合多个个案分析结果,得到关于“存在感需求-存在感体验-存在感体验失败”的总体概念模型(见图6)。

四、讨论与展望

(一)研究总结

本研究着眼于社会生活中的“存在感”、“刷存在感”现象,通过访谈方法对这一现象的形成、发展过程及其导致的心理、行为反应进行了探索。由于目前尚无研究对存在感的内涵进行阐明,本研究采用了扎根理论方法对其内涵、特征及其产生过程进行了分析。

(二)研究展望

由于涉及现实交互、虚拟交流以及自身不在场的情境下个体产生存在感的过程,本研究在以往研究结果的基础上也获得了一些新的发现。但与此同时,本研究对现实社会中“存在感”现象的研究仍有值得深入的地方。第一,由于本研究是使用扎根理论方法进行的定性研究,研究获得的存在感概念的结构及其稳定性尚需要定量研究的进一步检验。第二,本研究认为“存在感”体验与社会接纳心理相似,但其产生途径说明个体不仅能够通过主动行为获得存在感,同时还可能自发地获得存在感。因此,这一自发型存在感体验与社会接纳心理有何异同则需要更深一步地探讨。第三,本研究依据目的性抽样的原则选取了具备一定现实和虚拟社交网络的高校学生为研究对象,由此造成访谈对象层次单一的缺陷,使得本研究可能无法解决另一些问题。例如,在现实或虚拟的其中一种环境中的存在感体验失败,是否会促进个体在另一种环境中的存在感补偿行为。第四,同社会接纳及社会排斥类似,存在感体验、存在感体验失败作为个体社会交互的心理体验,是否会影响个体的社会交互质量及心理健康也可以进行探讨,例如外显自尊、人际关系满意度、感知的社会支持及人际公平感,等等。

[1]王小英.寻找存在感与制造存在感――网络小说链文本中的符号身份认同[J].中南大学学报(社会科学版),2014,20(6):299-306.

[3]TuC.Therelationshipbetweensocialpresenceandonlineprivacy[J].TheInternetandHigherEducation,2002,5(4):293-318.

[4]徐琦.浅析虚拟环境下的社会存在感理论[J].中国教育技术装备,22008,4:18-19.

[5]李肖锋,王倩,张龙革.虚拟学习社区中社会存在感的影响因素研究[J].开放教育研究,2012,18(6):87-94.

[6]李霞,朱晓颖,李文虎.归属需要的研究进展[J].心理学探新,2010,30(2):86-90.

[7]KnowlesML,GreenA,WeidelA.Socialrejectionbiasesestimatesofinterpersonaldistance[J].SocialPsychologicalAndPersonalityScience,2014,5(2):158-167.

[8]杜建政,夏冰丽.心理学视野中的社会排斥[J].心理科学进展,2008,16(6):981-986.

[10]孟娟.心理学扎根理论研究方法[J].吉首大学学报(社会科学版),2008,29(3):170-176.

[11]BuckleyK,WinkelR,LearyM.Reactionstoacceptanceandrejection:Effectsoflevelandsequenceofrelationalevaluation[J].JournalofExperimentalSocialPsychology,2004,40(1):14-28.

[12]石伟,闫现洋,刘杰.对不公正历史事件的情绪反应――群体内疚[J].心理科学进展,2011,19(2),224-232.

关键词:跨语言;知识管理;MOOC;文本挖掘

G40-057

一、研究现状和关键技术

1.跨语言知识管理

WordNet是由美国普林斯顿大学开发的大规模的汇总英语词汇知识的在线资源库。它是一个由普通的词典内容与计算机科学、心理学成功结合的基于认知语言学的词典,主要按照词汇的意义而不是字母顺序而组成的“词汇网络”[2]。经过20年的研究工作的进展,WordNet已经发展成为国际上非常有影响的英语词汇知识库,为知识管理做出了卓越的贡献。近年来,随着单一语言知识库的飞速发展和各语言信息多样性的增加,跨语言知识管理以及规模性跨语言知识库的建设将成为必然的趋势,具有研究价值。UKC(UniversalKnowledgeCore)就是这样一个典型例子。

UKC是一个由意大利特伦托大学开发的扩展的多语种版的WordNet,包括几十万个概念。UKC扮演的角色是世界上所有的自然语言的中心枢纽,对于每种语言,都存在一个独立的LKC(LocalKnowledgeCore)。每个LKC都有一个源语言(目前为英文)和一个目标语言(世界上任何一种语言),可以独立发展并且与UKC同步。事实上,LKC是一个本土化进程,通过UKC,所有LKC可以均衡协作、互相使用,多种语言可以得到匹配。

UKC的基本组成部分是词语,义项,同义词集和概念[3]。它们的含义如下:同义词集是一组拥有一个共有的含义的词语;概念是可以表示一个同义词集含义的一句描述性质的话;义项是一个词语的含义;注释是一个同义词集的简短描述。此外,UKC中还有词目和词性这两个

元素。

2.关键技术

近半个世纪以来,随着计算机技术的成熟与发展,人们的生活中大量产生着社交媒体中的文本数据、通讯数据、GPS位置信息、传感器数据甚至还有图片和视频,信息的种类和数量有了爆炸式的增加。但是人们目前面临的严峻的问题是数据丰富而信息贫乏,只是把海量数据存储起来并不会带来任何价值,还需要对其进行分析,并从中获得有用的信息[10]。数据分析基本上都经历了数据获取、预处理(清洗)、选择分析算法、展示结果、评估这一流程。本文的研究基于文本数据的处理与分析,包括文本数据的获取、清洗、信息挖掘和数据可视化。

获取数据是数据挖掘的初始步骤。对分析者而言,外部数据比内部数据更容易获取,获取外部数据可以通过搜索引擎、开放数据、在聚合数据平台上购买或下载专业数据集、网络爬虫、调查问卷等方式。目前应用较多的外部数据的采集方式的主要有两种:商业化工具与网络爬虫,我们的研究就基于Python爬虫程序来获取网络课程的笔记。

文本挖掘是数据挖掘的一个分支,也是一个由机器学习、统计学、数学、自然语言处理等多种学科交叉而成的领域。顾名思义,就是从大量文本数据中抽取隐含的、未知、可能有用的信息,并对这些数据进行分析,挖掘其中潜在的知识信息[4]。文本挖掘的数据主要是指非结构化文档和邮件、网页内容等半结构化数据,常见的算法有关联规则算法,聚类算法和分类算法。

数据可视化是指将身居分析的结果以图形或表格的形式展现出来,以便进一步分析和报告数据的特征以及数据之间的关系。它的首要任务是准确地展示和传达数据所包含的信息,并用直观、容易理解和操纵的方式呈现出来。它的基本流程是:⑿畔⒂成涑煽墒有问剑选择合适的图表,删去不突出的对象或属性,最终呈现出关键属性的明显特征。

二、跨语言知识管理的应用

我们研究的数据来自网易公开课中斯坦福大学开设的计算机系课程《机器学习》。首先使用Python爬虫程序获取最优笔记内容作为实验数据,然后用R语言分析文本数据、提取关键词,模仿UKC构建跨语言知识库,最后实现学习课程时对感兴趣的知识点的查询功能。跨语言知识管理研究的流程如图1所示。

数据获取与关键知识点提取

首先,利用编写的Python爬虫程序从网易公开课的课程页面获取前30页最优笔记,获得的数据保存成文本格式。

关键知识点提取是研究的核心部分,是文本分析算法的具体实现部分,此部分使用R语言完成,步骤如下:

第一步:读入待处理的文件,对数据进行清理和格式转换之后,经过排序,得到了共380条可用的笔记;

第二步:由于课程讲授是具有连续性的,而且为了方便统计,这里人为地将笔记按每3分钟为一段进行分段统计。然后对文本进行分词,然后全部去除文本中包含的标点、数字、多余的空格和停用词,生成语料库;

第三步:生成词汇文档矩阵,行为词汇,列为文档,使用tf-idf算法计算每个词语的权重,用余弦相似度算法计算出段之间的距离,对数据进行层次聚类,得到图2所示的聚类图。

我们可以断定{16,17,18}代表的笔记数据中,“梯度下降”,“算法”,“随机”,“descent”,“gradient”,“数据”这几个词出现的频率最高,结合机器学习的知识背景,可以得到这样的结论:45~53分钟,课程的主要知识点是“随机梯度下降”。同理,可以采取同样的方法分析出聚类结果里其他类的知识点,如下表所示:

随着MOOC在世界范围内兴起与壮大,毋庸置疑,网络教育资源将成为未来自主学习者获取知识的重要途径之一,关于网络学习资源中跨语言知识管理的研究是很有实用价值和研究意义的。本文以学习笔记为例,设计了一个关键知识点提取模型并构造了跨语言知识库,实现了知识点的跨语言查询和最优笔记推荐。下一步我们将改进层次聚类的算法,加深研究深度,进行基于开放数据的跨语言教育资源共享平台的构建。

[1]中国教育信息化网.教育部关于加强高等学校在线开放课程建设应用与管理的意见[J].中华人民共和国国务院公报,2015(18):48-50.

[2]宗成庆.统计自然语言处理(第2版)[M].北京:清华大学出版社,2013:68-69.

[3]GanboldA,FaraziF,ReyadM,etal.Managinglanguagediversityacrosscultures:Theenglish-mongoliancasestudy[J].InternationalJournalonAdvancesinLifeSciences,2014,6(3):167-176.

THE END
1.谈对象app免费下载谈对象安卓最新版2.2下载谈对象app是一款帮助用户结识志同道合朋友的应用程序。该应用提供了自动匹配的功能,根据用户的情况为其找到最适合的异性伴侣。 谈对象app是一个真实高效的社交平台,可以在同城范围内寻找附近的单身男女进行交友、聊天和约会。通过高效的索引方式,用户能够更快地找到心仪的人,从而开始一段美好的爱情故事。 该应用的自动https://www.duote.com/android/1120018.html
2.www.vco119.com/aplpage47396.html谢长廷说,他前往香港与大陆智库合办“两岸关系的发展与创新”研讨会,目的就是要为民进党、为台湾找到出路,打破一般人对民进党执政保守、“锁国”及“逢中必反”的刻板印象。||。 广东省委常委、省纪委书记黄先耀说,根据《从严治党五年行动计划》,从2013年起推行考察对象廉政报告制度,考察对象要如实填报个人家庭财产http://www.vco119.com/aplpage47396.html
3.会计人员访谈报告.docx职业发展在访谈对象谈及职业发展时,访谈对象C先生表示,他希望通过实习经验积累更多行业经验,争取在未来能够成为一名合格的会计师。他计划在工作之余继续深造,取得会计师资格证书。访谈对象A先生认为,职业发展需要不断学习和提升自己的技能。他已经开始自学财务软件操作和数据分析,以适应市场的变化。而访谈对象B女士则分享https://m.taodocs.com/p-1070535335.html
4.培养人与培养对象谈话记录最新(6页)培养人与培养对象谈话记录最新.docx 6页VIP内容提供方:mmmttt 大小:42.42 KB 字数:约4.86千字 发布时间:2020-08-19发布于广东 浏览人气:474 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)培养人与培养对象谈话记录最新.docx 关闭预览 想预览更多内容,点击免费在线预览https://max.book118.com/html/2020/0819/7101100054002161.shtm
5.www.zhilitong.net/aplpage96666.html鲁网12月7日讯为进一步普及宪法知识,增强青少年的宪法意识和法治观念,近日,枣庄市市中区人民路小学开展了“弘扬宪法精神,维护宪法权威”的宪法宣传周系列活动。此次活动旨在弘扬宪法精神,维护宪法权威,培养少先队员们的法治观念和公民意识,推动他们成为宪法的自觉遵守者、坚决捍卫者。 https://www.zhilitong.net/aplpage96666.html
6.www.psm99.com/aplhtml93947.htm六,91黄色插逼软件,非洲28P 七,三级黄色114 【联系我们】 客服热线:133-2881-646 加载更多 猛操小粉穴 国外破处大片掰开 成人社区 奶头奶水 97 操碰 本庄铃无码破解在线观看 364.44MB 被部长侵犯的人妻免费观看 超碰超碰超碰超起大鸡吧操黑 9 98变态黄色网站1区2区 http://www.psm99.com/aplhtml93947.htm
7.计算机网络基本知识点(一)–喜文BLOG谈一谈计算机网络和分布式计算机系统的区别 两者在计算机硬件连接、系统拓朴结构和通信控制等方面基本都是一样的,它们都具有通信和资源共享的功能。 区别关键在于:分布式计算机系统是在分布式计算机操作系统支持下,进行分布式数据库处理的,也就是说各互联的计算机可以互相协调工作,共同完成一项任务,多台计算机上并行运行。且http://www.xiwenblog.com/archives/3043
8.《非程序员》电子杂志下载(122期)51CTO博客最典型的方式是把某项信息记录成某个对象的一个属性,例如,一个人体重70公斤记录成“人(Person)”类的体重(Weight)属性,值为70。本章将讲述这种方式的不足,并提出一些更合理的解决方法。 用户需要什么-软件的工程可用性,Larry L. Constantine,Huang Yinhttps://blog.51cto.com/u_15684364/5976777
9.找对象的11种途径接亲网到了合适的年龄,许多小伙伴都会想找一个对象在一起,作为依靠,也作为分享日常生活,可以在有困难时帮助你的人,但是越想找可能越没有,其实找对象也是需要方法的,找对象还是很重要的哦,特别是在女孩找对象的黄金年龄,想谈恋爱却没有合适的人认识,别担心,小编今天给过各位小伙伴介绍11中找对象的途径,赶紧在爱情的转https://www.jieqinwang.com/baike/111702.html
10.100家大公司java笔试题汇总(带答案)网器里44af666. JDBC中,用于表示数据库连接的对象是:B A.Statement B.Connection C.DriverManager D.PreparedStatement 7. 用于调用存储过程的对象是:C A.ResultSet B.DriverManager C.CallableStatemet D.PreparedStatement 8. 按照MVC设计模式,JSP用于实现:B A.Model https://blog.csdn.net/sinat_25398439/article/details/53172105
11.月上百合日志收藏享受测试带来的一切因为干部例会上,要求大家先谈自己部门的问题,结果就有演变为例行痛诉自己不是的形式的可能,中国人重形式轻实质的毛病真是无处不在,这引起了我的警惕。因为我已经看到个别干部的检讨里带着油滑气,上午做完了检讨,下午开会照样给我看不踏实的工作。对此,我深恶痛绝。http://www.51testing.com/html/14/175414-type-blog-view-fav.html
12.2024所有免费谈对象软件大全iu9软件商店分享十大免费谈对象软件排行榜前十名手机应用,编辑为您推荐所有手机免费谈对象软件大全的应用。找免费谈对象软件有哪些、免费谈对象软件哪个好用对比,上iu9软件商店https://m.iuuu9.com/s/zj-2979511
13.安卓版恋爱聊天下载手机官方app2024最新版v1.1.3版恋爱聊天app,教您谈恋爱,秒追到女孩! 恋爱话术教你轻松学会聊天,让你快速脱单,追到自己心仪的对象!华军软件园提供恋爱聊天app官方版下载地址,有需要的用户可免费下载使用! 恋爱聊天软件特色 实时解决尬聊、传授恋爱技巧、情感咨询挽回感情的恋爱话术聊天神器 20万+聊天话术:搜索对方的话,复制黏贴即可轻松追到对方。 http://www.onlinedown.net/soft/10108757.htm
14.00后处对象软件下载00后处对象软件合集00后处对象软件曾经的00后如今也到了谈婚论嫁的年纪,这几款社交软件是小编为大家整理的,在这里找对象是非常靠谱的,这里的平台审核严格,交友氛围好,互动游戏多,让你轻轻松松脱单,想要找对象的小伙伴快来本站专题下载吧!媛圈151.0MB 2022-09-08媛圈这款社交软件非常安全靠谱,这里不会有什么安全隐患,绝对注重用户https://www.pc0359.cn/zt/pc00hcdxrj/
15.大众娱乐用户登录免费版大众娱乐免费版 v81384.9.5 安卓汉化版 分类: 单机/ 冒险解谜 大小: 447.46M 授权: 免费软件 《》 乐乐捕鱼 任达华代言版是一款照片橡皮擦应用程序,消除笔从图片中删除任何不需要的对象,包括文字、http://www.damaomao.top/342/detail/35366815/
16.无人机合作协议书(精选8篇)重点事项:小区或工业区洽谈主要是找物业管理处的负责人,大部分都是找物业经理,和他直接谈租赁或合作,2.主要洽谈对象是学校、单位的行政负责人 方案四:扶贫或下岗再就业政府机构合作方案 NS2是一款开放源代码的网络模拟软件,其开发目的主要是为了研究大规模网络以及当前和未来的网络协议的交互https://www.360wenmi.com/f/filey3pl323t.html
17.为了让你成功“约炮”,互联网大厂操碎了心熟人世界里无处排遣的孤独一类是靠直接靠刷脸社交的,通过左右划动来选择和匹配喜欢对象; 另一类是基于地理位置,匹配附近的人的; 最后一类是努力与看脸划清界限,通过性格、爱好等标签匹配不同人群。 公开资料显示,从2009-2015年,陌生人社交类APP产品共上线153款,平均每年上线19款;2018年共诞生159款;2019年超过了200款。 https://xueqiu.com/2684655177/209056128