10款数据分析“工具”,助你成为新媒体运营领域的“增长黑客”

您已获得免费畅听价值989元全栈运营微课的资格。

不必羡慕什么“技术流”,即使是不懂技术和复杂数学知识的你,照样能成为新媒体运营领域的“增长黑客”!因为创造性思维和强烈的好奇心会给你带来好运的,等到工具、技能和思维三者融会贯通的时候,就会像独孤求败那样——“不滞於物,飞花草木皆可伤人,草木竹石均可为剑”!

1成为新媒体运营领域的“增长黑客”

“增长黑客(GrowthHacker)”,这个近几年来风靡中国互联网界的新兴概念,滥觞于美国硅谷互联网创业圈,国内则是由范冰首先引进,他的著作《增长黑客:创业公司的用户与收入增长秘籍》使这个概念深入人心。

结合国内外关于“增长黑客”的表述:“增长黑客”是以数据驱动营销、以市场指导产品,通过技术手段贯彻增长目标的一群人。这就需要他们既了解技术,写得了代码;又能了解人性,能捕捉用户的心理感受和真实需求;最重要的是,他们经常能突发奇想,发挥创意,大开脑洞,以小的投入获取较多的用户和收入。

一言以蔽之,“增长黑客”就是具备各种跨界技能,可以利用各种巧妙的手段以极小的成本获取大量用户,实现最终的收入增加。

“增长黑客”让那些资金不够充裕、前期资源紧缺和初始用户匮乏的初创型互联网初创团队看到了“四两拨千斤”的希望,小投入也能办大事。

“增长黑客”的一个很好的理念,但它在不同的互联网领域有着不同的形态,具体的实现手法也不尽相同,比如在新媒体运营领域。

新媒体是跟随互联网兴起的一个新兴媒体形态,它已经在很大程度上颠覆了以往的纸质刊物、广播及电视等传统媒体,重要性不言而喻。关于它的概念和内涵,笔者不想多说,网上有很多的详细介绍。在这里,笔者认为新媒体最为重要的一个特征是:

人人都可以是信息的生产者,人人也都是信息的传播者。

这意味着无论是谁,包含企业、机构还有个人,都有机会成为这个新媒体时代的成功者。咪蒙、一条、十点读书即是例证。

然而,随着中国的互联网时代进入下半场,新媒体行业也从野蛮生长的时代进入“弱肉强食”的“丛林时代”,常规的新媒体运营手段(包括内容、展现形式及推广方法等)已经很难从用户增长缓慢和收入增长停滞的困境中突围出来。

写到这里,笔者不由得想到儿时看过的动漫——《数码宝贝》中的主人公身边各类可爱的小精灵,在遇到危急情况时会进化,由“成长期”进化到“成熟期”、“完全体”,甚至是“究极体”,适应性和攻击力呈现指数级的提升,足以在危如累卵的逆境中打败强大的敌人,反败为胜。

与此类似,广大新媒体从业者们在这个时候,也需要“进化”,完成华丽的转身—采用精细运作、量化分析的科学手段去进行新媒体运营,以适应这个足以革新我们思维观念的“大数据时代”,而“增长黑客”正是一剂良方。

从前面对“增长黑客”的介绍中,我们可以发现:

“增长黑客”是一个多面手的角色,需要掌握跨领域的知识,其中最为核心的技能即是懂技术、精通数据分析。

然而,技术(码代码、编写程序等)和数据分析(数学知识和BI软件操作等)对于很多做新媒体运营的小伙伴来说,是十分棘手的两样事物:很多从事新媒体运营的小伙伴是正儿八经的文科生毕业,文案和排版方面,他们可以说是“长袖善舞”,但技术和数据分析却可能是他们的“梦魇”。

鉴于这种情形,笔者提倡“人+数据驱动思维+工具”理念—以人为本,从运营者自身的知识结构出发,以数据/量化思维作为方法论,用工具辅助运营,从而做到扬长避短,把自己的精力集中在重要的事情上。

笔者在这里特意收罗了10几款跟数据分析有关的工具,以弥补技术小白和数据分析小白技能上的匮乏,而且掌握它们不需要很懂技术,连数据分析这项技能也能借助它们轻松get。

值得注意的是,本文所要介绍的工具,并不是狭义上的“工具”,如可视化工具、文本分析工具和事件热度趋势/预测分析操作类工具,还包括数据新闻这种广义上的新型信息载体;更为重要的是,他们分别代表着四种思维/观念—重视非结构性数据、科学化预测、信息的具象化呈现以及用数据讲故事,这些“工具”都是为达到、完成或促进新媒体运营效果的有利武器。

如下图所示,以下是本文的行文结构:

新媒体运营的“增长黑客”数据分析工具箱

NLPIR,即“自然语言处理与信息检索共享平台”的英文缩写,打开该网址,即可进入主界面—“语义分析系统”,顾名思义,它是一个在线的中文语义分析工具,因为非商业化,它对处理文本的篇幅大小也有限制,只能处理3000字,可以给热衷于文本分析的小伙伴过过瘾,但要想用于商业目的,那只能呵呵了。

NLPIR在线系统的首页

上图中间部分的11个圆圈即是该系统的所有功能,但其中有几个只是挂出来,目前还未实现,结合新媒体运营工作中的实际需求,笔者只介绍其中几个比较有实用价值的功能模块。

以下以《<你的名字。>破5.5亿元日媒:和中国联手有钱赚》这则新闻作为测试文本,笔者来给大家介绍下这个系统中的实体抽取、词频统计、文本分类、情感分析和关键词提取这5个比较有实用价值、且准确度较高的功能模块。

2.1.1实体抽取

实体抽取的图表效果支持力导向图和弦图这两种形式,如下图所示:

测试文本“实体抽取”的2种呈现形式

2.1.2词频统计

在一份给定的文件里,词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。

在文本分析中,词频统计是较为常规的、同时也是最为重要的一个环节,它用来评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。

NLPIR只展示了名词、动词、形容词这3种开放词类,这个3个此类也是一段文本中最为重要的3个部分:

测试文本的词频统计呈现

2.1.3文本分类

NLPIR“文本分类”部分目前所展示的类别只是新闻的政治、经济、军事、交通等,分类有待扩展和细化。

NLPIR深度文本分类,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。此外,它还可以实现文本过滤,能够从大量文本中快速识别和过滤出符合特殊要求的信息,可应用于品牌报道监测、垃圾信息屏蔽、敏感信息审查等领域。

然而,从测试的效果来看,这个功能模块的分析效果还不甚准确,它没有“娱乐”这一分类,但起码也应该划入“其他”这一类中。

测试文本的文本分类结果呈现

2.1.4情感分析

NLPIR的“情感分析”提供两种模式:全文的情感判别(左图)与指定对象的情感判别(右图)。大类上,“情感分析”部分分为“正(面)”和“负(面)”这两大类情感,这是内层;在外层,两个大类又分为“乐”、“好”、“怒”、“哀”、“惧”、“恶”、“惊”7中细分的情感,这也就是大家常说的“七情六欲”中的“七情”。

目前正负面的判断已经较为成熟,但鉴于汉语的博大精深和词汇语义(用法)的波谲多变(反讽、贬义褒用、语境变化等),细分情绪的判断准确度还值得观察。

测试文本的情感分析结果呈现

观察上面测试文本的情感分析效果图,再比对原始文本,这个判断大致上是准确的,但负面的部分应该比实际的占比小,尤其是“恶”这个部分—笔者并未发现有出现厌恶的语句和词汇。

2.1.5关键词提取

这里的关键词提取和前面的词频统计有一定的联系,但二者的算法(实现方法)是不一样的:

测试文本的关键词分析

从上图中测试文本的“关键词提取”中可以发现,这部分和“词频统计”部分既有重合也有明显区分,原因就在于上述的算法不同。

值得注意的是,不论是“词频统计”还是“关键词提取”,已经设置了“停用词(stopwords)”,在进行上述分析的时候,自动的将那些无明显意义的副词、冠词、代词给去掉了。

图悦的主界面

处理热词分析,图悦还可以自定义词云形状,不过这里的词云效果不敢恭维,下面笔者将会介绍一个更优秀的词云制作工具,让经图悦处理过的词频焕发出个性化的风采。

值得注意的是,图悦导出的excel文档有三列:提取出的词语、词频数、词汇权重。后两个指标,笔者已经在前面做过论述,不明白的小伙伴可以“倒带”回去看看。具体的使用方法笔者将在下面的可视化自定义词云部分详述。

另外,因为这款词频分析工具只能导出150个词汇,对于处理一些复杂且大量的文本就会捉襟见肘。鉴于此种情况,故笔者编写了一个能处理大容量TXT文件的exe小程序,供有词频分析需求的小伙伴免费使用。(后台回复“清晰文档”,即可获得名为“文本关键词提取及情感分析”的RAR压缩包,解压后即可使用。)

笔者编写的提取大容量txt文件的文本关键词分析器

这个小程序是按关键词的重要性程度来提取的,某种意义上讲会比词频分析提取的关键词更准确一些,权重值介于0~1之间。若要获得或词频一样的效果,只需将权重值乘以100/1000,然后取整即可,感兴趣的小伙伴可以在公众号的后台获取到这个关键词提取利器。

注意:该小程序内含40W以上的中文常用词汇,但不支持英文文本分析,仅供个人学习使用。

ToneAnalyzer的主界面

这一用来帮助评估和改善文字沟通当中的语气的服务目前尚处实验模式,如获成功,或将改变未来商家和营销人员同消费者、客户的沟通方式。

更重要的是,它可以应用到新媒体运营者的内容校正中来:

ToneAnalyzer的评价系统包含三个维度,各个维度及其简介如下图所示:

ToneAnalyzer的评价系统的三个维度

以下是ToneAnalyzer的使用案例,大家可以从下面的几个模块中获得对文字信息的洞察,这部分笔者不做详述,感兴趣的小伙伴可以去官网查阅文档。

输入文本信息和选择分析类别

文本信息3个维度的分析结果

文本信息段落的逐行分析(附有标记)

这里的搜索指数型趋势工具指的是,它们的数据绝大部分是基于用户的搜索行为,即用户搜索关键词而形成的数据及其展示,有一定的预测价值,但缺点是并不能发现搜索行为背后的原因。

3.1.1百度指数

关于百度指数的介绍,笔者仅贴出部分官方关于功能的介绍:

关于详细它的使用方法及一些关键原理,笔者在《寻找创业方向时,如何零成本用大数据获悉市场行情?》有详述,感兴趣的小伙伴可以去看看。

3.1.2微指数

微指数是新浪微博的数据分析工具,基于新浪微博的全量数据,通过关键词的热议度,以及行业/类别的平均影响力,来反映微博舆情或账号的发展走势。微指数分为热词趋势、实时趋势、(信息分布)地域解读和(用户)属性分析4个板块。

微指数的热词趋势图

微指数的“(人群)属性分析”

一般来说,这类数据产品的典型应用领域在舆情领域(包括舆情监测、品牌口碑监测等),比如新浪微舆情。

新浪微舆情的主页

以下是新浪微舆情这个大数据分析工具的介绍,我们能从中看到现网信息型热度分析工具的基本原理:

可以看出,现网信息型热度分析工具的数据基于现有的全网信息搜集,并经过自然语言处理等技术对文本信息进行信息的“去粗取精”,从而有效把握事件的重要方面和影响因素。“

下面,笔者来详述新浪微舆情的几个很有价值的功能模块—分别是热度趋势分析、信息监测、事件分析和微博传播分析,它们可以很好的运用到新媒体领域,可以在热点追踪、内容规划、受众画像分析和营销分析方面给予运营者们以有益的指导。

3.2.1(事件)热度趋势分析

(1)热度概况和热度趋势

热度概况及热度趋势分析

最突出峰值节点的信息聚类

(2)事件热度信息的关键词词云

这里的关键词云是由互联网上各个渠道的海量信息进行中文智能分词和自然语言处理所得,浓缩了关于该事件的TOP60关键词,能在一定程度上反映出事件的各个要素。

“淘宝列入恶名市场名单”事件的关键词词云

“淘宝列入恶名市场名单”事件的信息在“微博”这一信息渠道中的比重最多,其次是“网站”、“新闻”、“客户端”等,具体的数据为:微博(49.32%)、网站(27.73%)和新闻(10.13%)。

针对微博信息量为何占据如此大的比重这个问题,笔者找到了今年11月份新浪微博官方的一份关于微博UGC的数据,顿时了然:

新浪微博2016年PGC、UGC几项关键数据

新浪微舆情是新浪微博旗下的子公司,拥有全量的微博数据,再加上腾讯微博的信息量,因而其他渠道的信息量比例会被微博这一渠道巨大的UGC内容给稀释掉,形成绝对信息量不小但看起来很少的效果。

(4)事件热度信息的地域分布

(事件热度信息的)地域分布反映的是搜索事件的全网信息量在全国各地的分布情况,这一点与百度指数的原理一样。

“淘宝列入恶名市场名单”事件的信息地域分布

(5)事件热度信息的关联词分析

事件热度信息的关联词分析,它是通过系统自动运算找出事件核心词、并计算出与核心词同时出现关联度最高的高频词,也就是与核心词共现频率最高的词汇(关于“共现”的原理介绍,请看《如何用数据分析,搞定新媒体运营的定位和内容初始化?》的第三部分)。

下图中的关联词和弦图和对应关联度数据表反映了该事件的关联词情况。

“淘宝列入恶名市场名单”的关联词分析

3.2.2信息监测

实际上,信息监测可以用于新媒体领域,结合上面提及的“事件热度趋势分析”板块,媒体运营者可以有效的追踪热点事件的最新进展,做到不遗漏。

关于它的应用场景,笔者目前想到2个:

运营者可以在监测方案中按设置指定的关键词,定向的追踪自己感兴趣的事件、公司、品牌和资料等信息。

通过各种逻辑运算符设置信息监测的关键词

设置好监测方案以后,点击“图表分析”,即可看到如下图所示的各种监测方案信息量的可视化分析图表。

监测方案的信息量的走势图

监测方案的信息量分布情况

监测方案信息量的地理分布情况

监测方案的信息列表

监测信息的详情页

另外,这个功能模块还有几个功能,如下图所示,篇幅有限,感兴趣的小伙伴自己去试试吧。

“信息监测”板块的预警通知、监测日报和定向监测功能

3.2.3事件分析

事件分析(包括全网事件分析和微博事件分析)指的是,输入近期事件或话题关键词,系统自动进行深度挖掘和多重分析,记录事件从始发到发酵期、发展期、高涨期、回落期和反馈期等阶段的演变过程,分析舆情传播路径、关键词云、发展态势、受众反馈和网民观点分析。

3.2.4微博传播分析

下面贴一张大图让大家感受下:

微博传播分析的部分功能

怎么样,想学了吧?

不急,这个其实很简单,下面我将以实例详细的讲解制作这张图的步骤,即使是小白的你,也能做出这样精美的个性化词云。

我把个性化词云的制作分为3个步骤,即抓取数据、文本处理和词云制作,详见下图:

个性化词云制作的步骤

4.1.1数据获取

笔者对前不久上映且广受好评的电影《你的名字》颇感兴趣,想分析一下这部电影的市场反响如何,先聊聊这部分数据的获取。

对于影片的分析,首选当然是豆瓣电影,因为它是国内最具有参考价值的影评网站,从文本中能得到很有价值和有意思的信息。但考虑到文本数据获取的难易程度,我先介绍如下3个数据获取的方法:

(1)自己编写爬虫,想要什么数据就去抓取什么数据,既经济(用爬虫工具会花钱),又会增加“自己动手,丰衣足食”的成就感,最重要的是,略施小计就可以躲避豆瓣的封IP机制。

用python编写爬虫抓取豆瓣影评数据

(2)利用集搜客这样的爬虫软件去抓取数据,不需要编程技术,且简单易上手,但是可能会被封IP。

用新浪微舆情获取文本数据

因为最近学了点Python,故笔者选择了用Python编写爬虫来获取了豆瓣这部分的影评数据。

获取《你的名字》豆瓣电影的影评数据

抓取后的数据整理成如下表格:

保存到本地的《你的名字》豆瓣影评数据

4.1.2文本处理

一般情况下,文本数据的处理包含很多方面,如分词、词性标注、词频统计、文本分类、情感分析、关键词提取、文本摘要提取等。

在这里,制作词云只需要考虑关键词提取和词频统计这两个板块。

经图悦处理得到的词频csv文件

这里去除词语和词频两列,用来进行接下来的词云制作。

4.1.3词云制作

Tagul主页

(1)词频载入格式

在页面左上方的“Words”处,就是加载词语及词频的地方,这里需要注意一下它的载入格式。,如下表所示:

Tagul的词频载入格式

上表中,前两列的“Word”和“Weight”就是刚才经处理过的词语和词频,Color一栏则是设置该词语的颜色,这是个性化词云中很关键的一个要素,会直接影响到最终的词云呈现效果。这里可以不填写,那么在形成词云时默认随机生成颜色。如果要形成定制化的颜色,则需要设置采用16进制的色值,以下是常用的颜色代码表,即色值表。

常用的16进制色值表

与此类似,字体也可选可不选,需要定制的话,则可进行相应的设置。

“Repeat”这项则表示该词语是否会重复出现,填写“0”,则表示不重复,填写“1”,则表示重复。为了保持信息的精准度,减少噪声,一般选择填写“0”。

后面的URL链接就忽略了,因为有前面的设置,就不需要进行网页链接。

按照上述操作,出词语和词频两例外,笔者还定制了“Color”和“Repeat”这两项,结果显示如下。

最终的词语载入表

全选该表格的文字部分,将其粘贴到“ImportWords”的文本框里,进行保存。

(2)载入中文字体

因为Tagul是老外做的一个在线词云制作网站,所以Tagul不支持中文,这需要我们载入能支持中文显示的字体,如下图所示,笔者载入的是“YouYuan(幼圆)”字体。

载入中文字体

(3)处理背景图片

加载了字体,可以说这是个性化词云制作的核心部分,词云最终效果的美与不美就在此一举。

值得注意的是,在载入图片之前的图片选取步骤时,需要选择背景和主题对比比较明显的图片。从接下来的图片预处理过程中,你会发现这一点的重要性。

词云自定义图片的初始状态

笔者选取的是《你的名字》最为标志性的一张海报,看起来很有感觉:既有男女主角的形象,也交代了他们所处的生活环境,中间则是影片中重要的提条线索—彗星。这张图初始状态看似杂乱,不好处理,但仔细观察,可以发现主体(男女主角)和背景(天空、城市和彗星)之间的对比度和色相差异还是很明显的。在Tagul的“CustomShape”的设置中可以进一步处理背景和主体之间的对比度问题。

在“Shapes”处载入图片后,点击上载成功后图片的右下角“齿轮”,打开图片预处理。其中,“Threshold”处理景深,可以拉开/缩小背景和主体之间的差异;“Edges”则是处理主体轮廓的锐度,可以调节图片的清晰程度模糊程度。这里的要点是—淡化背景,清晰主体轮廓。

淡化背景,强化主体轮廓

好了,完成上面繁琐的步骤之后,现在是见证奇迹的时刻了,点击右上方大大的黑体字“Visualize”,待进度条加载完毕后,即可得到如下的最终效果图:

最终的词云效果图

Gephi是一款开源免费跨平台基于JVM的复杂网络分析软件,其主要用于各种网络和复杂系统,动态和分层图的交互可视化与探测开源工具。网上目前比较权威的Gephi教程是在Udemy上的Ooofliu讲解的《Gephi中文教程》,看完这个部分仍有饶有兴趣的小伙伴可以去学习下。

下面是由Gephi制作的各种网络图,这些图不仅包含了丰富的信息量,而且极富美感,在吸引眼球的同时还给予我们有意义的信息。

各种由Gephi制成的网络图

Gephi是一款信息数据可视化利器,它的一般应用场景如下:

以下简单介绍下它的使用方法。

在操作下面步骤之前,先去Gephi官网上下载最新版的0.9.1version,这是免费的,且支持中文,还有丰富的插件下载,这简直是数据可视化爱好者的福音!

值得注意的是,这款软件是用Java编写的,所以需要安装Java环境,这个有点磨人。演与演员的关系作为分析对象,来详细解读如何制作一个“秀外慧中”的社交网络可视化图谱。

4.2.1制作源数据

Gephi的源数据可以在excel中完成。在excel中,仅输入2列即可,表头严格按照Gephi的格式来制作,第一列为“Source”,第二列为”Target”。下面以豆瓣上评分6以下的国内电影的导演(选取的是张艺谋、陈凯歌、冯小刚等大家耳熟能详的导演,演员随之确定)和演员关系表为例,做成如下格式:

在Excel上编辑Gephi的源数据

做好源数据之后,记得保存为CSV格式,Gephi仅能读取这种格式的数据。

4.2.2导入数据

在导入数据时,分别在“分隔符”、“如表格”、“格式”这三个选项下选择“逗号”、“边表格”、“GBK”。接下来点击“下一步”,完成数据的导入。

在Gephi中导入csv数据

4.2.3调整网络布局

刚打开“图”,也就是网络图的图形界面时,这几百个节点“蜗居”成一团,有点盘古开天辟地前“浑沌如鸡子”的感觉,但这个模样离我们心中的审美还有很长一段距离呢。

初始状态的网络图

不过,不用着急,下面几个简单的步骤就能让它“脱胎换骨”,完成华丽的变身。

在左上方的“布局”栏目中,选择其中的任一算法,并可以在下方的操作界面修改默认算法参数,也可使用默认的参数。单击图中运行按钮,布局算法生效。

选择“布局”中的算法

选择不同的“布局”算法,网络图的形态就会有相应的变化,以下是其中最为典型的集中算法及其拓扑图。

各种“布局”算法的网络图拓扑形态

在这里,笔者选取由“FrunchtermanReingold”算法确定的呈蒲公英花朵状的结构作为初始形态。

网络布局做好后,我们完成了这个网络图的“骨架”搭建,下一步则需要对它的外表进行修饰,包括节点、边和背景等部分的美化。

4.2.4美化

在这里,我们可以对网络图进行“美容”,给它着上靓丽的颜色和合适的背景作为衬托。

如下图所示,我们可以在“外观”一栏对节点和边进行着色,然后在下方选择合适的背景,要注意节点、边和背景之间的色差和对比。

给节点、边和背景选择合适的颜色

还需要注意一点,沿着“外观”>“节点”>”数值设定”这一路径,让节点根据连接数的多少而显示相应的大小,使该网络图更有层次感;同理,可以对边进行类似的设定,则两个联系紧密的节点间的边将变得更宽。

经过调整后,可以得到如下的网络图。

颜色调整后的效果图

4.2.5显示标签

经过上述几个操作步骤之后,网络图还需要加入最为重要的一项内容—标签,也就是前面提及的导演及演员的姓名,反映在节点上,由此完成他们之间的社交网络图的基本绘制。

沿着“窗口”>“预览设置”的路径,打开“预览设置”,界面显示如下。其中,需要在“节点标签”这部分完成字体的选择,把默认的西文字体变为中文字体。除此之外,此处还可以进行边框、字体大小、颜色、透明度等的设置。

在“预览设置”中设置中文字体

完成上述选项后,还需要在软件界面的下方,点击一下左下角那个大大的“T”,则节点标签就会显现,旁边也有些字体调节钮,大家可以摸索下。

在“布局”中,选择“标签调整”算法,得到下图:

最终效果图

图中各个节点的字体随节点的重要性(由度、连入度或连出度确定)而呈现出不同之大小。所以,大家先看文字,了解其中最为突出的一些演员和导演,其次在看他们之间的关系。

笔者比较懒,这个网络图其实还可以进行更深入的优化的,有兴趣的小伙伴可以尝试着做得更绚丽一些。

好了,上面的工具部分介绍完毕,该进入最终的收尾阶段了。在某种意义上讲,上面介绍的若干工具都是为接下来的“数据新闻”部分做准备—它们是数据新闻中不可获取的一部分,是数据新闻内容呈现的重要“武器”。

在正式介绍数据新闻之前,笔者先聊聊,为什么需要数据新闻这种新型的新闻报道方式。

这里,笔者引用美国NorthwesternUniversity人文与社科学院的ProfBrianKeegan的一段话作为注解:

“在当代,对于信息过载,以及恐惧、不确定性和怀疑等情绪的焦虑氛围下,数据驱动的新闻可以起到关键性的作用。它们可以为关于政策、经济趋势、社会变革的讨论提供更为坚实的经验基础。”

由此可见,信息过载、信息失真和现实世界广泛存在的不确定性,导致人们不再相信没有充分依据的信息,因而数据新闻这种更有说服力的信息载体呼之欲出。

数据新闻,又叫数据驱动新闻。是指基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。它致力于从海量数据中发现新闻线索,或是抓取大量数据拓展既有新闻主题的广度与深度,最后依靠可视化技术将经过过滤后的数据进行融合,以形象化、艺术化的方式加以呈现,致力于为读者提供客观、系统的报道以及良好的阅读体验。

目前,在大数据新闻制作上已经积累了经验的国际媒体有《卫报》《纽约时报》《华盛顿邮报》等。

以下是常见的数据新闻呈现方式:

不同类型的数据新闻

需要注意的是,数据新闻不一定非得要复杂的数据来呈现事实,表现出很高的逼格。在很多时候,简单的描述性数据即可,就像下面的一个示例一样,数据图表的呈现让读者更加清晰、直观的了解到西藏班在“量”和“质”上的变迁,是“绿叶”,而内地西藏班的整个发展历程才是真正的“红花”,是该报道的主线。

一张图读懂“内地西藏班”

一般情况下,数据新闻有如下3种形式:

5.2.1新闻叙事

数据新闻体系下的新闻叙事讲求客观理性和逻辑性,从数据视角来看待事件与社会话题的方方面面,加之以形象具体的可视化图表作为最后的呈现方式,使读者对内容的真实性和价值性产生信任。

以下是标题为《23萬投票紀錄回顧第五屆香港立法會》的数据新闻,下面选取了该文中一些具有代表性的数据图示。

《23萬投票紀錄回顧第五屆香港立法會》数据新闻中的一些图示

从上图中,在运用数据图示的同时,借助数据分析的方法,从多维度总结了议员的投票行为。这种基于数据的的表达,比起单纯的文字报道来,表现清晰,说服力强。

5.2.2事实判断

一个孤立的事件当中的少量信息往往缺少关联度,但如果从正确的角度观察却能发现极为重要的价值。透过数据,内容运营者可以发现仅凭知觉和传闻难以感知的、隐藏在事件/新闻背后线索或假设,抽丝剥茧、言之凿凿的把事件的来龙去脉和其中缘由讲述透彻。

《10万条挂号大数据显示:互联网也救不了看病难》中的可视化图表

从这个例子可以看出,数据新闻的报道方式能够在宏观上对某个事件看得更加清楚与全面,事件复杂的演进过程以及这个过程中的各个方面,都能描述得直观且有趣,最重要的是,很能让异见者服气。

5.2.3预测走向

下图是CNN在今年7月份关于美国总统大选预测的数据新闻,全篇大篇幅的介绍了当下美国社交媒体上各州对候选人的支持情况、通过复杂算法得出的候选人各州获胜的概率以及哪个州对于总统选举具有决定性意义等。

CNN在2016年7月份关于美国总统大选的预测(局部)

数据新闻学是一门交叉的学科,数据新闻的产生给传统的新闻工作者提出了挑战,传统的新闻创作理念和方式,要求新闻工作者具备采写编评等基本专业技能,但目前已无法满足大数据时代下数据新闻的创作。

要做好数据新闻,需要运营者着重提升以下4个方面的素养/能力:

5.3.1敏锐的数据洞察力

数据新闻需要大量的数据、数据分析处理,不仅仅是要有技术水平,更需要一双慧眼,分得清“真数据”和“假数据”,而且还要选择重要的数据和信息进行内容输出,为受众提供更细致、精确的事件分析,又快又准的报道新闻,数据新闻的把关在数据时代更为重要。

媒体工作者需多渠道的收集数据。从公开的数据库或者是政府部门、企业、机构中获取数据,从这些海量信息中判断和选择有表现力的数据。当媒体工作者获取数据之后,便开始处理和整合数据。将与新闻报道无关的数据筛选、过滤后,剩下有用的数据进行整合汇编,形成新的报道内容。

5.3.2熟练运用计算机能力

在如今信息爆炸的大数据时代,特别是社交网络、电子商务与移动通信把人类社会带入了一个以“PB”(1024TB)为单位的结构与非结构数据信息的新时代。大量的数据和信息摆在新闻工作者面前,传统的计算机无法处理大量的、无规律的数据,需要云计算进行分析、处理、统计。

因此,对于当今的新闻工作者提出了更高的要求,必须熟练运用计算机,掌握一门编程语言。如果之前没有编程基础,推荐python,它的设计哲学是“优雅”、“明确”、“简单”,掌握一些常用的爬虫包、数据分析及可视化包以及自然语言处理包,就能很好的将大量的数据和信息进行友好的呈现。

5.3.3分析处理数据能力

5.3.4可视化平面设计能力

最后,笔者介绍一个数据新闻的资料库,在这里小伙伴们可以看到国内外许多优秀的数据新闻案例,要做优秀的数据新闻制作者,首先从模仿学习做起。

好了,看到这里的小伙伴,我几乎可以断定是真爱了,希望你们能掌握好这些“工具”,成为运营领域的“增长黑客”,不必羡慕什么“技术流”,因为创造性思维和强烈的好奇心会给你带来好运的,等到工具、技能和思维三者融会贯通的时候,就会像独孤求败那样:

THE END
1.免费查询软件:2025探索无限可能:最佳免费查询工具推荐!随着海量数据的产生,如何快速而精准地找到所需的信息成为了大家面临的一大挑战。查询工具的出现,为我们解决了这一难题,尤其是在各类数据分析、市场研究及日常生活中,它们都扮演着不可或缺的角色。本篇文章将为您详细介绍在2025年最新的最佳免费查询工具,帮助您探索无尽的可能性。 1. Google Search:永恒的强者 作为http://ay5pns.lyjscl.com/post/11305.html
2.数据指标查询平台有哪些1. 百度指数 百度指数是中国主要的搜索引擎百度推出的数据查询平台,可以帮助用户实时了解关键词在百度搜索中的搜索量趋势。它提供了多个指标,如搜索指数、媒体指数和舆情指数,可以帮助用户了解热门关键词的受欢迎程度和趋势变化。 2. 腾讯指数 腾讯指数是另一家中国知名的科技公司腾讯开发的数据查询平台。它提供了搜索指https://www.guandata.com/gy/post/29847.html
3.关键词查询网站推荐排名,深入洞察市场行情的利器随着百度排名代做的广泛使用,百度排名代做指数也逐渐受到关注,它主要基于百度排名代做公众号、小程序、百度排名代做搜索等平台的数据,能够反映出关键词在百度排名代做生态中的热度变化,通过百度排名代做指数,用户可以了解到关键词在百度排名代做朋友圈、公众号文章等场景中的传播情况,对于关注百度排名代做平台相关数据http://dz17.jlgou.com/cb5fck/ssloc54m.html
4.数据分析必备网站大数据分析网站有哪些好用的数据网站推荐同时,开放算数指数、算数榜单、抖音垂类等数据分析工具,能够满足营销从业者、品牌主或创作者的数据需求。平台用户早已突破三千万,品牌用户超一百万。详细 艾瑞咨询 艾瑞咨询是成立于2002年的数据分析报告网站,是中国新经济与产业数字化洞察研究咨询服务领域的领军品牌,可提供专业的数据洞察、行业分析、市场研究、战略https://www.maigoo.com/citiao/list_113026.html
5.46个大数据分析工具平台,怒蛙网络推荐大数据工具工欲善其事,必先利其器。在大数据时代到来之际,如果您想获得广泛的数据资料及分析能力,就必须要借助一些大数据工具,怒蛙网络为您推荐业内常用的46个大数据分析工具平台,让您打开数据视野,透视行业前景。 一、数据平台(5类) 网络趋势分析6个 1、百度指数——主要用户:营销人 https://www.angryfrog.cn/vip_doc/25121559.html
6.资料篇技术站点必看书籍大牛博客GitHub篇工具篇平台工具Druid: 实时数据分析存储系统 Ambari: 大数据平台搭建、监控利器;类似的还有CDH Tachyon: 分布式内存文件系统 Mesos: 计算框架一个集群管理器,提供了有效的、跨分布式应用或框架的资源隔离和共享 Impala: 新一代开源大数据分析引擎,提供Sql语义,比Hive强在速度上 presto: facebook的开源工具,大数据分布式sql查询引擎 Shttps://github.com/feythin/guide
7.百度指数查询百度指数查询API接口标准化API接口聚合数据百度指数查询 数据产品 APIMaster API全生命周期管理专家 DataArts 数据敏捷治理专家 QuickBot 高效率数字化员工 热门搜索 短信发送身份证银行卡基站股票数据快递实名认证手机三要素验证天气 API>百度指数查询 百度指数查询 根据关键词返回百度PC指数、百度移动指数、整体指数https://www.juhe.cn/docs/api/id/398
8.全网热点话题的传播量怎么查询?舆论热度如何统计?舆情应对通过百度指数,我们可以查询某个关键词在百度搜索引擎上的搜索趋势和搜索指数。在查询结果中,可以看到该关键词的搜索指数、关联搜索词、搜索热度、地域分布等信息。但是,这些数据只能可以作为传播热度的基础参考数据。 2.社交媒体平台查 当前,很多社交媒体都有提供基础数据查看功能,我们可以通过搜索关键词来查询该话题在某https://m.eefung.com/company-news/20230823172020950
9.DIA评测第一期7款素材情报工具DIA敏捷营销类似百度指数,优化师可以通过搜索诸如“传奇”等关键词,搜索该关键词一段时间的曝光量以及消耗,以及与“传奇”关联的其他联想词。 素材洞察 筛选维度支持游戏或者电商下的子分类,以及三大媒体平台。不一样的是,Marketing Desk的素材下直接可以显示该素材和创意的花费,点击以及曝光。我们挑出几条业内的公司,在询问数据https://www.shangyexinzhi.com/article/536215.html
10.论文数据哪里找?这些网站不能少!共享文库的出现,使得大家搜集信息方便了许多,随最早的豆丁、百度、爱问等共享文库的出现,随后到如今出现许多共享文库,不过很多文库规模较小,文档数量较少。 1、国内主要文库百度文库:http://wenku.baidu.com/;国内文档数据量最大的共享文库,综合型的,好用。 https://mse.xauat.edu.cn/info/1050/1167.htm
11.有哪些好的数据来源或者大数据平台?虎嗅网:和36氪类似,对重大事件有深度解读。 艾瑞网:互联网领域数据整合平台。 钛媒体:关注TMT领域的最新动态。 亿欧网:热点领域都有专题形式分区展现,偏产业角度。 中国票房:电影领域的数据统计。 易观智库:提供行业大数据解决方案。 百度指数:通过搜索引擎角度捕捉热点。 https://www.52cv.com/article/AAP17760SW
12.百度指数百度指数官网 百度指数是一个以百度大数据为基础的数据分享平台,拥有海量的网民行为数据。该平台提供了丰富的数据分析服务,包括搜索指数、媒体指数、行业指数等多种数据分析工具,帮助用户了解网民的搜索行为,洞察市场趋势,为决策提供数据支持。百度指数的核心优势在于其海量的数据资源和精准的数据分析,能够为用户提供全面、https://www.openi.cn/sites/279.html