舆情的“质变”——突发事件演化中变换阶段的意见领袖推演分析

由中国新闻史学会计算传播学研究委员会与微热点大数据研究院联合举办的第二届传播数据挖掘竞赛已圆满落幕,15支战队尽显风采。以下为“突发事件发展推演模型”选题优秀作品《舆情的“质变”突发事件演化中变换阶段的意见领袖推演分析》,由来自厦门大学的“咬文嚼数队”精彩呈现。

1.1突发事件舆情演变的阶段模型

关于突发事件网络舆情演变的议题,许多学者从不同的角度进行了划分,包括三阶段、四阶段以及多阶段等演变模型。典型的三阶段模型为“发生、变化、结束”(王来华,2005;陈月生,2005),还有“产生、传播、聚合”(徐敬宏等,2010)。这些三阶段模型较为简洁、抽象,但创新性和解释力不足,于是四阶段模型应运而生。有学者提出“涨落、序变、冲突和衰变”的四阶段划分模型(刘毅,2007),还有“起始、持续高涨、波动变化、淡化或消落”(姜胜洪,2010)。以上四阶段模型解决了部分三阶段模型的问题,但仍在逻辑性、接续性、描绘准确度等方面存在不足。另外还有学者提供了内涵更多环节的多阶段模型。“潜伏期、萌动期、加速期、成熟期和衰退期”五阶段模型(谢科范等,2010)重点反映由网络舆情引起的突发事件变化,因此在反映网络舆情演变方面不具有较好解释力。

该模型的特征对比如下表所示:

1.2舆情阶段划分依据:转换阶段的质变特征

如今的网络舆情发展迅速,变换复杂,且突发事件经常出现多次的舆情反转,导致事件的真相模糊,引起网民的骂战。舆情变换期则定义为扩散阶段后出现的一系列明显转折、大角度转变,该阶段正对应了舆情的反转阶段。通过对舆情变化阶段的预判与控制,才能更好地将突发事件舆论往可控的方向引导。

1.3舆情演变中的意见领袖的界定与测量指标

“意见领袖”这一概念最早由拉扎斯菲尔德在《人民的选择》中提出,指那些在人际传播中经常为他人提供信息或意见,并对他人施加影响的“活跃分子”,并据此提出了“两级传播”理论,即“观点经常从广播和印刷媒体流向意见领袖,然后再从她们流向不太活跃的人群。”(Lazarsfeld,1948)随后,大量研究证明“意见领袖”在创新扩散、市场营销、流行时尚、公共事件、舆情控制等方面发挥着重要作用(Katzetal,1955;Rogers,1983;Bondetal,2012)。

2.1研究问题

RQ1:舆情在何时进入变换阶段?

a:具体何时进入变换期?

b:和前期相比,变换期的舆情有哪些特征?(各阶段传播内容及特征部分:

变换前&变换期)

RQ2:舆情变换阶段,哪些人能成为意见领袖?

a:哪些微博用户成为该舆论事件变换阶段的意见领袖?

b:各个舆论事件变换阶段的意见领袖具有哪些个人特征?

(用户认证类型+社会属性)

c:各个舆论事件变换阶段的意见领袖具有哪些网络特征?

d:各个舆论事件变换阶段的意见领袖具有哪些行为特征?

RQ3:舆情变换阶段,意见领袖是如何在情感层面影响舆情发展的?

(微博内容情感倾向)

2.2研究意义

本研究补充已有研究的不足,着眼于舆情演变中“变换阶段”的意见领袖,在综合分析突发舆情事件特征的基础上,构建舆情变换阶段意见领袖的识别指标体系,并总结舆情演变过程特别是变换阶段的发展规律,为舆情监控部门识别变换阶段的意见领袖提供参考,以便其在复杂的舆情环境下及时进行引控工作并遏制舆情进一步蔓延。

3.1数据清洗

1.选择微博数据的原因

微博作为一种新兴的信息传播渠道,因为其特有的实时性特征,已经成为突发事件网络舆情形成的重要平台,而在微博中如何定义以及发现网络舆情意见领袖是一个有待研究的问题。(刘志明,2011)

2.已有数据舆情事件分类

1)标准类(“倒V”型):母亲踹踢三岁女童模事件、仁济医院赵晓菁事件、四川凉山火灾事件和西安奔驰漏油事件均体现出事件发生后舆论经过孕育进入小高潮期,经过信息扩散形成舆论高峰,随后逐步衰减的特征。

3)“二次爆发类(M型)”:北京世界园艺博览会和上海特斯拉自燃事件均体现出舆论进入衰退期后出现二次爆发的特点。

3.事件的选取

3.3粒子扩散模型与舆情阶段划分依据

3.3.2空间

1.关键词分析:本研究使用了词频统计,统计各阶段微博内容词频,并使用TF-IDF模型进行关键词识别,根据词频绘制词云图;

2.LDA主题分析:首先利用TF-IDF模型将词向量化,而后训练LDA模型,计算困惑度选择合适主题个数,并对各阶段主题词进行主题概括。(蒋明敏,王雪芬,2020)

3.4变换阶段的意见领袖识别体系

3.4.1个人属性

2.通过原微博溯及原博主,根据该博主的微博认证信息、简介和过往发博记录,综合评判该用户的社会属性,包括文体明星、各行各业专家学者、公共知识分子、媒体微博、政府官方微博、草根(罗宜虹,2014),具体定义见附录四。

3.4.2行为特征

3.4.3网络特征

1.核心—边缘

采用Rombach等人基于核心-外围结构模型提出的计算方法(P.Rombach,2017),使用python的核心边缘结构分析的算法包cpalgorithm对清洗后的数据集二进行处理,基于微博转发关系进行核心边缘分析。

2.中介中心性

3.转发关系可视化

采用pyecharts,地理可视化库AntV-L7和网络结构可视化工具Gephi,将转发的层级关系可视化,见附录五。

3.4.4文本特征

1.情感分析

为了提升识别的准确率,研究者采用了深度学习中的Bi-LSTM模型(XuG,MengY,2019)来对清洗过后的微博进行情感分类分析,在本次的处理中,Bi-LSTM模型会处理输入语句并把它们划分为积极、负面、中立三种情感,以作为语句的特征信息供后续的分析处理使用。

4.1RQ1:舆情在何时进入变换阶段?

b:和前期相比,变换期的舆情有哪些特征?

以下,根据关键词分析和LDA主题分析,总结归纳变换前后阶段舆情主题及该阶段的特征,另外,由于在判断过程中“母亲踹踢三岁女童”事件不存在变换期,在本研究中不做展开。

4.1.1上海特斯拉自燃事件变换阶段前后事件特征

4.1.3西安奔驰漏油事件变换阶段前后事件特征

4.2RQ2:舆情变换阶段,哪些人能成为意见领袖?

4.2.1标准类(“倒V”型)意见领袖特征

根据转发量、中间中心度、核心边缘分析以及传播网络图,变换阶段前后的头部意见领袖按照转发量降序排列如表格中所示,研究者在两个阶段分别选取意见领袖共计10位,其中重复的头部意见领袖只计数为1。

4.2.2迅速进入高潮类(“h”型)意见领袖特征

总的来说,变换前阶段的意见领袖整体上呈现出:在个人特征上,以金V用户、媒体微博账号为主的特点,意见领袖所属行业、专业与该事件本身涉及的行业、专业无关,地域分布杂乱;在行为特征上,微博转发量自25至135不等;在网络特征上,核心度较高;在文本特征上,更多倾向于表现负面情感。

总的来说,变换期意见领袖整体上:在个人特征方面以蓝V、媒体微博为主,同时,草根用户占比30%。意见领袖所属行业、专业与该事件本身涉及的行业、专业无关,地域分布杂乱;在行为特征上,微博转发量自36至1525不等且转发量最高的用户为草根用户;在网络特征上,核心度、中介中心性较高;在文本特征上,更多倾向于表现负面情感。

4.2.3“二次爆发类(M型)”意见领袖特征

1.标准类(“倒V”型)——西安奔驰漏油事件

西安奔驰漏油事件变换阶段前意见领袖各指标下的特征如下:

西安奔驰漏油事件变换期意见领袖各指标下的特征如下:

综合比较变换阶段前后各指标的特征变化,研究者总结三类舆情事件变换阶段的显著变化指标,详见如下表格:

3.“二次爆发类(M型)”——上海特斯拉自燃事件

上海特斯拉自燃事件变换阶段前意见领袖各指标下的特征如下:

上海特斯拉自燃事件变换期意见领袖各指标下的特征如下:

因此,用户认证类型、用户社会户属性可作为识别M型事件变换期意见领袖的指标。

4.三类舆情事件变换阶段意见领袖特质及识别指标如下所示:

参考文献

[1]陈福集,陈婷,(2015).舆情突发事件演化探析——基于意见领袖引导作用视角.情报资料工作,2,23-28.

[2]陈一新,陈馨悦,吕妍,韩铁奎,徐扬.(2020).基于改进Hegselmann-Krause模型的微博舆论反转研究.情报理论与实践,43(01),82-89.

[3]陈远,刘欣宇.(2015).基于社会网络分析的意见领袖识别研究.情报科学,33(04),13-19+92.

[4]陈月生.群体性突发事件与舆情[M].天津:天津社会科学院出版社,2005:10.

[5]方付建.突发事件网络舆情演变研究[D].华中科技大学,2011.

[6]姜珊珊,李欲晓,徐敬宏.(2010).非常规突发事件网络舆情中的意见领袖分析.情报理论与实践,33(12),101-104.

[7]姜胜洪.网络舆情形成与发展规律研究[J].兰州学刊,2010(05):77-79.

[8]蒋明敏,王雪芬,刘玥.基于LDA模型的网络舆情研究进展与演化分析[J].泰山学院学报,2020,42(02):116-124.

[9]金真婷.(2019).互联网时代下舆情反转现象的成因——以“河南高考调包案”为例.新闻研究导刊.10(24),60-61.

[10]刘毅.网络舆情研究概论[M].天津:天津人民出版社,2007:292-326.

[11]刘志明,刘鲁.微博网络舆情中的意见领袖识别及分析[J].系统工程,2011,29(06):8-16.

[13]宋海龙,巨乃岐,张备,濮小金.(2010).突发事件网络舆情的形成、演化与控制.河南工程学院学报(社会科学版),25(04),12-16.

[14]谭旭,庄穆妮,毛太田,张倩(2020).基于LDA-ARMA混合模型的大规模网络舆情情感演化分析.情报杂志.1-10.

[15]王迪,何跃.(2013).基于社会网络分析的意见领袖网结构.统计与信息论坛,28(10):84-89.

[16]王国华,张剑,毕帅辉.(2011).突发事件网络舆情演变中意见领袖研究——以药家鑫事件为例.情报杂志,30(12),1-5.

[17]王来华.舆情变动规律初论[J].学术交流,2005(12):155-159.

[18]王旭,孙瑞英.(2017).基于SNA的突发事件网络舆情传播研究——以“魏则西事件”为例.情报科学,35(03),87-92.

[19]吴江,赵颖慧,高嘉慧.(2019).医疗舆情事件的微博意见领袖识别与分析研究.数据分析与知识发现,3(04),53-62.

[20]谢科范,赵湜,陈刚,蔡文静.网络舆情突发事件的生命周期原理及集群决策研究[J].武汉理工大学学报(社会科学版),2010,23(04):482-486.

[21]徐敬宏,李欲晓,方滨兴,刘颖.非常规突发事件中网络舆情的生成及管理[J].当代传播,2010(04):41-43.

[22]晏敬东,杨彩霞,张炜南.(2017).基于生命周期理论的微博舆情引控研究.情报杂志,36(08),88-93+75.

[23]BondRM,FarissCJ,JonesJJ,etal.(2012),A61-Million-PersonExperimentinSocialInfluenceandPoliticalMobilization.Nature,489,295-298

[24]Haewoon,Kwak,ChanghyunLee,HosungPark,Sue,Moon.(2010),WhatisTwitter,asocialnetworkoraNewsMedia.//Proceedingsofthe19thInternationalConferenceonWorldWideWeb.

[25]JieZhang,Xiao-KeXu,PingLi,KaiZhang,MichaelSmall,Nodeimportancefordynamicalprocessonnetworks:Amultiscalecharacterization,Chaos:AnInterdisciplinaryJournalofNonlinearScience,21(1),016107.

[26]KatzElihu,LazarsfeldPF.(1955),PersonalInfluence;thePartPlayedbyPeopleintheFlowofMassCommunications.Glencoe,Ill:FreePress.

[27]LazarsfeldPF,BerelsonB,GaudetH.(1948),ThePeople’sChoice.NewYork:ColumbiaUniversityPress

[28]ManuelGomez-Rodriguez,JureLeskovec,AndreasKrause.(2010),InferringNetworksofDiffusionandInfluence.ACMTransactiononKnowledgediscoveryfromData,5(4)

[29]MeeyoungCha,HamedHaddadiy,Fabr′cioBenevenutoz,KrishnaP.Gummadi.(2010),MeasuringUserInfluenceinTwitter:TheMillionFollowerFallacy.//ProceedingsofInternationalConferenceonWeblogsandSocialMedia.

[30]P.Rombach,M.A.P.,J.H.Fowler,andP.J.Mucha.:‘Core-PeripheryStructureinNetworks(Revisited).SIAMReview,59(3):619–646,2017.

[31]RogersEM,CartanoDG.(1962),MethodsofMeasuringOpinionLeadership.PublicOpinionQuarterly,26(3),435-441.

[32]Rogers,E.M.(1983).Diffusionofinnovations(3rded).NewYork:TheFreePress.

[33]WangS,PaulMJ,DredzeM,etal.ExploringHealthTopicsinChineseSocialMedia:AnAnalysisofSinaWeibo[C].nationalconferenceonartificialintelligence,2014.

[34]XuG,MengY,QiuX,etal.SentimentAnalysisofCommentTextsBasedonBiLSTM[J].IEEEAccess,2019:51522-51532.

以下为所选取四个事件的LDA主题分析表格汇总,用于事件阶段划分以及选取最优核心传播者的判断。

1.上海特斯拉事件主题分析

2.母亲踢3岁女童模事件主题分析

4.西安奔驰漏油事件主题分析

1.文体明星

2.各行各业的专家学者

3.公共知识分子

主要是指那些“利用自己的专业知识,在关系到人民群众利益的问题上,积极表达自己的言论观点,引导社会舆论,推动公共舆论事件的解决"的专业人士。如韩寒、李承鹏等,他们的观点常常犀利而尖锐,对推动公共事件的发展起着关键性的作用。

THE END
1.数据科学猫:数据预处理之数据清洗(DataCleansing)本文主要介绍了数据清洗在机器学习建模中的关键作用,包括数据清洗的定义、目标、方法和常见操作。数据清洗旨在提升数据质量,确保唯一性、完整性、一致性和有效性。文中详细阐述了如何检查和处理重复、缺失、异常和错误数据,以及使用Python、R、SQL等工具进行数据清洗的实践技巧。 https://blog.csdn.net/Orange_Spotty_Cat/article/details/81335640
2.常见的数据清洗方法有哪些?数据清洗是数据处理流程中的关键一步,旨在提升数据质量。通过规范化处理原始数据,我们可以更有效地利用这些数据。数据清洗涵盖了多种方法,如处理重复值、填补空缺值、识别并处理异常值,以及进行数据标准化。 首先,重复值处理是数据清洗的重要环节。重复值指的是在数据集中多次出现的相同数据。通过个案处理,我们可以检查https://www.yoojia.com/ask/17-14358775910785958096.html
3.数据挖掘中常用的数据清洗方法有哪些?数据集成:对多个数据源进行整合,解决数据不一致、冗余等问题。 以上方法都是常用的数据清洗方法,管理者在进行数据挖掘项目时,需要根据具体情况选择合适的方法进行数据清洗,以确保数据质量和分析结果的准确性。 关键词:数据挖掘、数据清洗、缺失值处理、异常值处理、数据转换、文本数据清洗、数据集成0https://www.mbalib.com/ask/question-0cde118f78f5f4d56cbafa9558dceb81.html
4.数据挖掘中常用的数据清洗方法有哪些?袋鼠社区数据挖掘中常用的数据清洗方法有哪些? 数栈君 发表于 2023-12-06 09:49 314 0 在数据挖掘过程中,数据清洗是一个至关重要的步骤。这是因为原始数据通常包含许多错误、冗余和不完整的信息,如果不进行清洗,这些“噪声”可能会对后续的数据挖掘过程产生负面影响,甚至导致错误的分析结果。因此,了解并掌握数据清洗https://www.dtstack.com/bbs/article/12652
5.数据清洗的方法包括哪些?数据清洗常见六大问题及处理方法!数据清洗是整个数据分析过程中不可或缺的一部分,确保数据的质量和准确性对于后续的数据分析和业务决策至关重要。本文总结了数据清洗常见六大问题,并给出了一些处理方法和建议。 数据清洗常见六大问题及处理方法思维导图 一、数据缺失值 处理缺失值非常重要,因为缺失值会影响数据的分析和决策。因此,正确选择填充或删除策https://www.fanruan.com/bw/sjqxcjldwt
6.精准识别工作导引3.对重新认定后的所有贫困户及2016年脱贫户开展数据录入及清洗工作。 4.行政村信息采集和录入,按照村镇改革前、后两套村级行政区划采集信息,改革前的录入全国扶贫开发信息系统,改革后的录入即将建成的省脱贫攻坚大数据平台。 八、方法步骤 第一步:宣传告知和信息摸底。在县扶贫办指导下,由乡镇政府统一组织,乡镇干部http://sxwjw.shaanxi.gov.cn/sy/ztzl/jkfpzt/zcjd_2002/201706/t20170606_1808467.html
7.数据分析中的数据清洗指什么数据清洗是指在进行数据分析前,对原始数据进行处理,去除数据集中的错误、缺失、重复、不一致等问题,以确保数据的质量和准确性。它直接影响到后续分析结果的准确性和可信度。 一、数据清洗的步骤 1.确定数据清洗的目标和方法 在进行数据清洗前,需要明确数据清洗的目标和方法。根据数据类型、数据来源、实际情况等,选择https://www.linkflowtech.com/news/1071
8.数据仓库数据清洗的方法数据仓库数据清洗的方法-优选内容 浅谈数仓建设及数据治理 | 社区征文 ## 一、前言在谈数仓之前,先来看下面几个问题:### 1. 数仓为什么要分层?1. 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据https://www.volcengine.com/theme/1134932-S-7-1
9.科学网—[转载]python抽样方法详解及实现TomekLinks函数中的auto参数控制Tomek’s links中的哪些样本被剔除. 默认的ratio=‘auto’ 移除多数类的样本, 当ratio='all’时, 两个样本均被移除. 5、EditedNearestNeighbours(数据清洗方法,无法控制欠采样数量) 原理:对于属于多数类的一个样本,如果其K个近邻点有超过一半(kind_sel=‘mode’)或全部(kind_sel=https://wap.sciencenet.cn/home.php?mod=space&do=blog&id=1268368
10.pandas实现数据清洗有哪些方法pandas实现数据清洗的方法有:1、缺失值处理;2、重复值处理;3、数据类型转换;4、异常值处理;5、数据规范化;6、数据筛选;7、数据聚合和分组;8、数据透视表等。详细介绍:1、缺失值处理,pandas提供了多种处理缺失值的方法,对于缺失的数值,可以使用“fillna()”方法填充特定的值,如平均值、中位数等;2、重复值处理https://m.php.cn/faq/629994.html