数据清洗范例6篇|数据清洗的内容和意义_家电

RFID是一种允许物体在一定范围内，被自动识别而无需直接观测到的电子标签技术，采用电磁和响应交换[1，2]。目前大量的零售商如沃尔玛、中国EMS、思科在仓库和分发中心的存货系统中安装RFID技术。然而RFID阅读器收集到的数据是不可靠的，中间件系统需要纠正阅读数据并提供清洗过的数据。目前大部分解决方案是清洗一组阅读器采集的数据[3]。然而，已有的方法主要存在三个方面的限制：

2）没有有效地利用标签物体和RFID阅读器的先验知识提高数据的准确性。

3）未有效的利用特定应用中的限制（比如一个房间或书架的容量）清洗数据。

本文提出一种考虑到这三种限制的新方法，充分利用数据的冗余性、先验知识和应用限制来提高准确性和数据清洗的有效性。

2贝叶斯推理框架及n元检测模型

2.1贝叶斯推理框架

假设在检测环境中有m个区域和n个物体，每个区域中间位置部署一个阅读器。oi表示拥有ID为i的物体。对于每个oi，它的位置表示为一个随机变量hi。因此，n个物体在m个区域可能的分布表示为一个向量[H=h1，h2，…，hn]。hi表示物体oi所在的位置。例如h1=2表示物体o1当前在区域2内。对于区域j中的阅读器，从物体oi标签接受到的未处理的数据（0或1）定义为zij。从m个阅读器每次完全的扫描得到的未处理数据矩阵可以表示为[n×m]阶矩阵[]=|zij|。那么贝叶斯定理可以如公式（1）所示，其中[postH]表示根据给定未处理数据[]得到后验位置矢量[H]，假设满足以下约束：如果[H]无效，[postH]=0；如果[H]有效，[postH]>0；如果[H1]比[H2]可能性大，则[postH1]>[postH2]。如果在未处理数据矩阵中zij=1而实际中物体oi没在区域j中，那么zij就是误报。

为了计算[postH]，假定每个阅读器检测不同的标签是独立的（阅读器成功检测到一个标签不影响它成功检测到另一个标签），可以得到公式（2）。假定不同的hi（物置）之间是独立的，并且假定对同一物体每个阅读器的检测是独立的，每个物体的先验分布不依赖于其他物体。由此可得到公式（3）。采用格式化常量[α]重写公式（3）可获得公式（4），对已给定的脏数据[]和假设[H]（每个物体的位置），可以基于公式（4）得到假设的可能性。

我们的目标是创造一个大的有效假设样本集，而有效假设采样的一个先决条件是可以精确计算每个假设的后验概率。

2.2RFID阅读器检测模型

算公式（4）中每个样本的先验概率的关键是准确计算p（zij|hi）的可能性。为此引入n-状态检测模型来精确的计算其可能性。

RFID的物理特性决定其数据采集和传输是不可靠的。阅读器的检测范围可以分为主要检测区域和次要检测区域，其中主要检测区域在距离阅读器较近的范围内，其阅读率可以维持在95%，而次要检测区域的阅读率呈直线下降趋势，超出阅读器的检测范围时，阅读器的阅读率恶化为0。

为了解决这个问题并利用重复的数据，本文提出了一个n-状态检测模型，将阅读器的所有检测区域分成成许多子区域，每一个区域都对应唯一的读取率。不同状态的读取率构成一个等差数列。

3具有约束的采样算法

由于公式（4）容易计算但难于采样，本文提出一种对采样进行约束管理的Metropolis-Hastings采样算法（简记为MH-C），算法产生的每个样本可以自动的满足所有的约束，可有效地从先验分布中抽采样本。

定义1候选样本.称从采集器获得的任何样本为候选样本，一个合格的样本是满足所有约束的候选样本。

尽管MCMC提高了采样效率，MCMC所产生的样本不一定是一个合格的样本。虽然原始的Metropolis-Hastings算法可以通过构造马尔可夫链来评估后验分布，但它没有把约束条件考虑进来。如果利用约束采样，将会拒绝许多样本，这是由于它们是不合格的样本。

DescriptorZonei=DescriptorZonei-Volumeobjectj（5）

只有在DescriptorZonei不为0时资源分配才是可行的，否则必须重新采样直到找到一个满足所有约束新的分配。因此，资源分配是否可行的问题可以简化为检测描述符的值。

Algorithm1支持约束的Metropolis-Hastings采样算法

1）初始化[S]=，获得原始数据矩阵[]

2）载入n-状态检测模型

3）将资源描述符初始化为最大容量.

4）初始化[C]，在Post（[H]|[]）中随机选择合格的样本作为开始点.

5）forCycle=2toE+Bdo

6）forj=1toDobjectdo

7）repeat

8）Pj=Cj+Random（-S，S）{根据当前值和建议步长生成新整数}

9）ifPj<1then

10）Pj=1+（1-Pj）{溢出并重设}

11）endif

12）ifPj>Dzonethen

13）Pj=Dzone-（Pj-Dzone）

14）endif

16）jj+1

17）endfor

18）Jitter生成0，1之间的一个随机数

19）ifJitter≤min（1，[Post（P|）Post（C|）]）then

20）[C]=[P]//Metropolis-Hastings采样

21）endif

22）将[C]添加到[S]作为下一个样本

23）重置所有资源描述符

24）CycleCycle+1

25）endfor

算法1中用到的符号含义如下：[S]：样本集，[C]：马尔可夫链上当前的样本，[P]：马尔可夫链上建议的样本，Cj：[C]的第j维，Pj：[P]的第j维，E：有效样本个数，B：老化阶段的样本个数，S：统一建议分布步长，Dobject：监测对象的总数，Dzone：区域总数。

4实验验证

为了验证算法性能，本文模拟大型仓库生成检测物品的RFID数据集，让物体对应盒子，区域对应货架。采用3-状态检测模型实现MH-C算法，并且作为对比，扩充基于SIS的方法[4]，增加利用重复读数功能，达到可对比程度。

4.1实验数据及测度

本文设计了模拟器生成大型仓库的随机产生分布矩阵（行表示物体，列表示货架（区域））和具有噪声的RFID原始数据，通过100次试验来验证MH-C方法在重建的效率和准确性方面相对于SIS的性能。

定义2前k成功率.真实位置匹配了重建分布中前k个预测位置的箱子个数在总共箱子个数中所占的百分比，k=1时表示最佳成功率。

4.2验描述及性能分析

实验1：重建准确性

在本实验中，改变合格样本的数据、数据冗余度和每个阅读器管理货架的数目，研究这些因素对重建准确性的影响。

实验2：冗余度对算法性能的影响

接下来，通过改变数据的冗余度研究MH-C和SIS的重建准确度的性能。因为误报实际上是阅读器成功检测到了在次要检测区域的物体，使用在次要区域的读取率来定义数据冗余程度。越大的冗余程度表明一个阅读器越可能检测到邻近区域（货架）内的物体。

实验3：阅读器管理货架数目对算法性能的影响

为了使部署在仓库中的阅读器更加有效率，用户可能要为每个阅读器分配多个货架。目前实际应用场景中，一个普通的RFID阅读器的整体检测区域几乎没有超过5米的，因此设置每个阅读器管理货架数目从1到6变化。

5结论

实际应用中，RFID设备所接收的数据被是不可靠的。本研究提出采用贝叶斯推理方法清洗RFID原始数据，从而可以充分利用具有时空冗余的读数。为了估计位置信息和聚合查询结果，本方法采用先验知识来量化每个物体的不确定位置和每个区域的剩余容量，并且提出了n-状态检测模型捕获可能性，设计并实现了MH-C算法。实验证明本文提出的方法可有效的环境中从后验分布环境中符合约束采样，可以广泛地应用于物联网实际应用。

参考文献：

〔关键词〕图书馆；决策分析；大数据清洗；系统设计

DOI：10.3969/j.issn.1008-0821.2016.09.018

〔Abstract〕Thelibraryseraofbigdataiscoming，dataqualityissueswillresultveryimportantinfluenceonbigdataapplicationsoflibraries，bigdatacleaningisoneoftheimportantmethodstoimprovelibrariesdataquality.Thispaperintroducedthetypesofdirtydataandreasonsinlibraries，anddesignedofbigdatacleaningsystemforlibrarybasedonbigdatadecisionanalysisneeds，thesystemnotonlyimprovedtheefficiencyandaccuracyofbigdatacleaning，butalsogreatlyreducedthecomplexityofbigdatadecisionanalysisforlibrary.

〔Keywords〕library；decisionanalysis；bigdatacleaning；systemdesign

当前，图书馆已进入大数据时代。随着移动互联网、云计算和物联网技术在图书馆中的广泛应用，图书馆可通过监控和采集服务器运行数据、读者个体特征、阅读行为数据、阅读关系数据、阅读终端数据等，实现了对图书馆服务模式和读者阅读需求的全面感知与预测，大幅度提升了图书馆的服务能力和读者阅读满意度。但是，随着图书馆服务复杂度和服务模式多样化的发展，其大数据环境呈现出“4V+1C”的特点（分别是数据体量巨大（Volume）、数据类型繁多（Variety）、价值密度低（Value）、处理速度快（Velocity）和具有较强的复杂性（Complexity）），图书馆采集与存储的原始大数据中混杂着许多不完整、错误和重复的“不清洁”数据，导致图书馆大数据存在着不一致、不完整性、低价值密度、不可控和不可用的特性[1]。图书馆如果一味强调提升IT基础设施的大数据处理性能、数据分析方法的科学性、数据分析师的大数据素养，而不通过大数据清洗有效提升数据的质量和可用性，将会导致图书馆大数据应用的收益率和数据决策科学性下降。

1图书馆大数据清洗的需求与挑战

11大数据环境下数据清洗的需求发生变化

大数据时代，图书馆数据的结构、类型、规模和复杂度发生了巨大变化，其大数据内容主要由IT服务系统运营日志与参数数据、用户服务数据、读者个体特征数据、读者行为监测与社会关系数据、阅读终端运行数据、视频监测数据和传感器网络数据等组成，这些数据具有海量、多类型、高价值和处理速度快的大数据“4V”特点，因此，与“小数据”时代图书馆的数据清洗需求有本质区别。

13海量、重复的大数据严重降低了数据决策效率

14图书馆对错误大数据的识别与修正需求

15图书馆大数据清洗需制定科学的行业规范和标准图书馆大数据具有海量、多类型、高价值和处理快速的4“V”特征，据统计，其结构化与非结构化数据占据大数据总量的85%以上，且随着图书馆服务模式多样化和数据环境复杂度的不断增长，其非结构化数据占据大数据的总比例将快速上升，因此，大数据海量、多类型和结构复杂的特点给图书馆的数据管理带来了很大困难。

不同类型的图书馆在大数据采集源的结构和数据库类型上差别巨大，导致不同图书馆在大数据的采集方式、组织结构、存取方法和数据库构建类型上有较大区别，即使是同一种数据的存储也存在着多种不同标准和数据库关系结构。因此，制定统一的数据库建设和数据管理、存取标准，提升数据清洗工具与数据库系统在数据端口、清洗规则和配置参数上的兼容性，是关系图书馆大数据高效清洗和多用户共享的前提。

2图书馆大数据清洗平台的构建与大数据清洗关键问题21图书馆大数据清洗平台的构建

不清洁数据清洗管理平台由图书馆元数据管理、大数据清洗模型管理、数据清洗安全性管理和质量管理4个模块组成，负责元数据存取、大数据清洗流程控制、数据清洗过程的数据安全性和不清洁数据清洗质量的管理，可有效保证不清洁数据清洗过程安全、高效、经济、高价值和可用。

22关系图书馆大数据清洗质量和数据可用性的关键问题221有针对性地选取图书馆大数据的清洗对象

222依据大数据决策实时性需求制定数据清洗策略

223图书馆大数据清洗质量评估标准的几个重要维度

图书馆对不清洁数据清洗质量评估的科学性，既是关系图书馆数据价值保证和大数据决策可用性的关键，也是图书馆对数据清洗系统进行反馈控制、优化和完善的重要依据，因此，必须选择科学、全面、完整和可操作的大数据清洗质量评估维度，才能确保大数据清洗过程高效、优质、快捷、经济和可控。

图书馆大数据清洗质量评估体系的构建应坚持评估指标覆盖面广泛、指标因子权重分配合理、评估系统开放和易于操作的原则，所设计的图书馆大数据清洗质量评估维度如表1所示：表1图书馆大数据清洗质量评估维度表

此外，对图书馆大数据清洗质量的评估，应根据大数据决策过程对数据清洁度、价值密度和可用性的需求，动态调整大数据清洗质量评估维度表中各指标的权重因子，增强大数据评估结果对大数据清洗系统的反馈控制与优化功能，才能确保大数据清洗过程安全、高效、经济和可控。

224图书馆大数据清洗流程的设计

大数据清洗流程的科学性、数据流可控性和评估标准有效性，是关系图书馆大数据清洗流程安全、高效、快速和经济的重要问题。因此，本文在图书馆大数据清洗流程的设计中，坚持在保持大数据价值总量不变的前提下，以提升大数据的价值密度、可用性、决策实时性和降低大数据应用成本为根本目标，有效保证了大数据决策的科学性、可靠性、实时性和经济性。图书馆大数据清洗流程如图2所示：

3结语

图书馆大数据清洗是一个涉及面广泛和影响力深远的工程，不科学的清洗流程和方法会导致数据清洗收益率下降，甚至产生新的不清洁数据而影响图书馆大数据决策科学性。因此，图书馆在大数据的采集、传输、存储、标准化处理、分析和决策中，首先应将数据质量管理和数据清洁引入图书馆大数据生命周期的不同阶段，从制度上规划保证数据质量管理有效和防止不清洁数据的产生。其次，应加强对大数据融合、集成和演化流程的监控与检测，防止因为大数据的产生、流入或数据更改而产生新的不清洁数据。第三，数据清洗过程会消耗大量的系统资源和大数据应用成本，因此，图书馆数据清洗目标的制定应以大数据决策需求为依据，不能人为制定过高的数据清洗清洁度目标而导致大数据决策综合收益下降。

参考文献

[1]王曰芬，章成志，张蓓蓓，等.数据清洗研究综述[J].现代图书情报技术，2007，（12）：50-56.

[2]吴向军，姜云飞，凌应标.基于STRIPS的领域知识提取策略[J].软件学报，2007，18（3）：490-504.

[3]刘喜文，郑昌兴，王文龙，等.构建数据仓库过程中的数据清洗研究[J].图书与情报，2013，（5）：22-28.

[4]蒋勋，刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报，2013，（5）：16-21.

[5]王永红.定量专利分析的样本选取与数据清洗[J].情报理论与实践，2007，30（1）：93-96.

[7]黄沈滨，王海洁，朱振华.大数据云清洗系统的设计与实现[J].智能计算机与应用，2015，5（3）：88-90.

[8]FANW，LIJ，MAS，etal.Yu.CerFix：Asystemforcleaningdatawithcertainfixes[J].PVLDB，2011，4（12）：1375-1378.

12月7日至9日，上海市戏剧家协会和上海市剧本创作中心联合举办了为期三天的2010年度“第二届青年戏剧编导演读书班”，上海各戏剧院团和区县文化馆报名踊跃，推荐优秀青年编导演人员共计43名学员参加了活动。

活动期间，“读书会”安排了学员们观看了话剧《天堂隔壁是疯人院》，并和该剧导演尹铸胜进行了座谈交流。“读书会”为上海戏剧人才拓展戏剧视野及提升文化素养，为他们提供了跨专业的业务学习和交流平台，在各戏剧院团反响热烈，其中不乏参加首届读书班的一、二级演员如上海沪剧院的程臻、朱剑，以及青年编导中坚力量，改项目已成为上海剧协每年度的保留项目。

玻璃餐具：环保当先

玻璃餐具易破碎，因此在清洗时应先在水槽底部垫上橡胶垫或一块较厚的毛巾。带装饰的玻璃餐具，可用牙刷蘸上洗洁精去除装饰部位缝隙中的污垢。顽渍可用柠檬切片擦除，或者在醋溶液中泡一会再清洗。玻璃用品易划擦，稍不注意便会造成不易恢复的伤痕和裂痕，所以清洗时不要用金属清洁球。

有茶垢的玻璃杯用洗洁精很难洗净，可取少量白碱将玻璃杯轻轻搓洗，再用清水冲洗干净。如果还留有少量残余茶垢，重复以上操作直到清洗干净。用这种方法不但比用洗洁精环保，而且不会影响餐具表面的光泽度。

瓷质餐具：小心第一

瓷质餐具也是易碎品，所以清洗时亦要轻拿轻放，以防破碎或产生裂纹。清洗前可先将餐盘上的食物残渣做简单清理，然后再用加了清洁剂的温水洗净、晾干即可。

如果污渍较顽固，不要用强酸或强碱类洗洁精去清洗，可多泡一会，再用软布蘸上洗洁精擦拭，便可光洁如新。瓷质餐具不要用洗涤剂洗，用温水洗就行了。因为瓷质产品的主要成分是碳酸钙，用洗涤剂洗，可能会腐蚀餐具。

塑料餐具：以油吸油

塑料餐具耐摔经用，但清洗起来却不太容易。我们经常会发现，明明用了很多洗洁精来清洗，一摸餐具，却还是感觉有一层油腻附着在上面，怎么也恢复不了使用之前光滑清爽的状态。

这里介绍一个小方法：把喝剩下的茶叶渣用纱布包起来（或者直接用现成的茶包），蘸取适量的食用油，擦拭塑料餐具表面，以油吸油，之后再用少许洗洁剂清洗即可。

还有一个办法，适合周期性清洁。将84消毒液和清水以1：200的比例兑在一起，将塑料餐具放入，浸泡约2小时，再用清水反复冲洗干净就可以了，不但可以对塑料餐具起到“美白”的作用，而且不会产生任何腐蚀。

不锈钢餐具：方法为重

不锈钢餐具既不易碎又使用方便还易保养，很多人认为它挺“皮实”，所以使用和清洗时不太注意方式方法，结果导致人为的损坏。比如用钢丝球清洁，导致餐具表面留下划痕；还有的人用强碱性或强氧化性的化学药剂，如苏打、漂白粉、次氯酸钠等进行洗涤，这都是不正确的。

要解决一些顽固污渍，不锈钢专用清洁剂便可以轻松搞掂。一些环保而实用小技巧亦可以解决大问题。比如把做菜时切下不用的胡萝卜头在火上烤一烤之后，用来擦拭不锈钢制品，不但可以起到清洁作用，而且不伤表面。做菜剩下的萝卜屑或黄瓜屑蘸清洁剂擦拭，既能清洁还能抛光。

木制餐具：重在养护

木制餐具使用后，先用冷水浸湿的海绵或纸巾擦拭处理后再清洗。清洗时不要将其放置水中久泡，更不要放入洗碗机中清洗。可用1/4杯氯漂白剂和1.2升热水的溶液来清除污渍，漂洗并晾干后，再涂抹植物油进行保养。木制餐具容易留下食物的味道，所以清洁过后要做去味的功课。用一片柠檬擦拭表面来驱除异味，或用半杯小苏打与1.2升热水混合成溶液进行擦洗。

Tips：清洗餐具，省水有方

1.不要将沾油的餐具和没有沾油的餐具泡在一起，这样不但加大工作量，还不利于环保。清洗的时候，先将没有沾油的餐具在水槽内冲洗干净，然后再利用洗过的这些水，加少许洗洁精洗有油污的餐具，这样既能节水也利于环保。

[关键词]地面观测；数据维护；数据异常分析；情况分析

[DOI]1013939/jcnkizgsc201716318

2操作基本要领

3数据异常情况分析

31降水量及云的输入异常

在人工输入降水量时，有时会出现“有江水天气现象无编报降水量”的提示栏，降雨量无法输入，面对这种异常状况，操作人员要把天气气象编码进行删除，并按照正确的顺序重新输入；在输入云的状态时，需要注意中英文模式的转换，如果提示“云高不能为空！”，就需要在云高的输入栏填写相应云高，并且要把编报栏的云量数据删除。

32新软件出现维护界面无数据的自动提示

33气温、相对湿度、气压、降水量以及地温等数据超出历史极限

当气温、相对湿度、气压、降水量以及地温等数据超出历史极限时，系统会出现是否发送数据的提示，这时候需要人工对气象观测数据进行分析、审核，通过正点观测数值和小时内每分钟观测数值的比较，判断其变化是否合理，如果符合逻辑规律，则选择发送并保存数据；若数据是属于异常情况，那么就要按缺测进行数据处理。面对记录超出历史值范围的这些异常情况，软件操作者要及时地对系统规律库中的数据进行合理化设置，以便预审核天气报时能够对数值进行判断分析。

34判断定时数据出现异常或者缺测

35正点降雨出现野值或者疑误

遇到正点降水出现野值或者疑误的情况，一般要对自动气象站的时降雨量和分钟降雨量的数值进行分析查看，若是实际天气并没有降雨现象，就要把“时降水量”和“分钟降水量”选项中的数值删除。具体操作步骤：用鼠标选中“时降水量”/“分钟降水量”，然后按“DEL”进行数据清空；对于自动气象站降水量的数据采集出现错误的时候，操作人员需要在“时降水量”和“分钟降水量”的单元格上相应地输入“-”，清空错误数值。

4结论

[1]文强，张兴云，孙松，等正点地面观测数据维护中数据异常的分析处理[J].气象科技，2013（3）.

[2]薛斌彬自动站正点地面观测异常数据的维护处理[J].黑龙江科技信息，2014（29）.

关键词：大数据大数据分析方法情报研究适用性

PreliminaryStudyontheBigDataAnalyticsandItsAdaptabilityinIntelligenceStudies

AbstractBigdataanalyticshasbroughtnewopportunitiesfordata-orientedorinformation-orientedintelligencestudies'development.Basedonexistingresearch，theauthormakesareviewofthreeviewpointsofbigdataanalyticsbasedondata，processandinformationtechnology，andthensummarizesfivelevelsofanalyticswhichincludingstatistics，mining，discovery，predictandintegrate，andits17kindsofrelevantresearchmethods.Theadaptabilityofbigdataanalyticsintheintelligencestudiesisdiscussedanditisfoundthat10researchmethodscanbedirectlytransplantedtointelligencestudies，2researchmethodsshouldbeadjustedfortransplantation，2researchmethodsareinapplicable，and3researchmethodsneedfurtherstudy.

Keywordsbigdata;bigdataanalytics;intelligencestudies;adaptability

1大数据分析的方法分类

不同学者对BDA方法的看法各有差异，概括起来，主要有三种分类体系，分别是面向数据视角的分类、面向流程视角的分类以及面向信息技术视角的分类。

（1）面向数据视角的BDA方法分类。这类研究主要是以BDA处理的对象“数据”作为分类依据，从数据的类型、数据量、数据能够解决的问题、处理数据的方式等角度对BDA方法进行分类。

Power[5]依据分析需求将数值型数据的分析方法划分为三类：①若是模式理解及对未来做出推论，可采取历史数据及定量工具进行“回顾性数据分析”;②若要进行前瞻及预测分析，可采取历史数据及仿真模型进行“预测性数据分析”;③若要触发事件，可采取实时数据及定量工具进行“规范性数据分析”。美国国家研究委员会在2013年公布的《海量数据分析前沿》研究报告中提出了七种基本统计数据分析方法[6]，包括：①基本统计（如一般统计及多维数分析等）;②N体问题（N-bodyProblems）（如最邻近算法、Kernel算法、PCA算法等）;③图论算法（Graph-TheoreticAlgorithm）;④线性代数计算（LinearAlgebraicComputations）;⑤优化算法（Optimizations）;⑥功能整合（如贝叶斯推理模型、MarkovChainMonteCarlo方法等）;⑦数据匹配（如隐马尔可夫模型等）。

（2）面向流程视角的BDA方法分类。这类研究主要是依据BDA的步骤和阶段对BDA方法进行分类。

（3）面向信息技术视角的BDA方法分类。这类研究强调大数据技术本身涉及到的新型信息技术，将大数据处理架构、大数据计算模式、大数据系统等作为BDA方法分类的依据。

孟小峰、慈祥[11]着眼于大数据处理框架，梳理了数据抽取与集成、数据分析及数据解释所使用的分析方法，在数据抽取与集成方面，可区分为基于物化（Materialization）或ETL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等四类;在数据分析方面，传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难，需进一步发展;在数据解释方面，引入可视化技术或交互式的数据分析过程，有助于用户理解分析结果。覃雄派等人[12]认为，非关系数据管理（如MapReduce）扩展了数据分析的多维视角，使数据分析的生态系统从“大量数据的移动”转向“直接对数据进行分析”。

1.2BDA方法的分类――面向层次的BDA方法框架

上述三种视角的BDA分类各有特点，都有一定的道理。从面向数据的视角来看，BDA方法正从统计（Statistics）转向挖掘（Mining），并提升到发现（Discovery）和预测（Prediction）。基于流程的BDA分类则更能反映BDA过程的集成性（Integration），也就是说，在完成一项分析任务时，需要综合使用多种方法。从面向信息技术的BDA分类中可以看出，这种分类方式强调使用新技术对传统数据处理方法进行改进和创新，同时更重视新型系统架构与分析方法的集成，例如，各种数据挖掘算法的MapReduce化，就是这方面的典型实例。

2BDA方法在情报研究中的适用性探讨

如前所述，BDA与情报研究在本质上有共同之处，BDA方法可为情报研究提供借鉴，因此，探讨BDA方法对情报研究的适用性就很有必要性。以下综合考虑方法本身的完善性及可操作性、情报研究的分析对象特征、方法的可移植性[15]等因素，对本文所列举的17种面向层次的BDA方法在情报研究中的适用性进行分析。

2.1可直接移植的方法

（1）数据挖掘与文本挖掘。数据挖掘与文本挖掘是不同概念，两种方法分别使用不同的发现技术，文本挖掘属于基于计算机语言学及统计方法的发现技术，用来揭示文本中的词与句法特征;数据挖掘以数据库中的大量结构化的数据挖掘为基础，用来揭示数据中潜在的、可能的数据模式及关联规律[16]。在情报学领域的实践应用中，数据挖掘多应用在图书馆自动化技术与服务方面，例如，馆藏采购决策、个性化服务、信息检索、读者管理、馆藏布局等。文本挖掘在情报研究的价值在于弥补了情报学专门分析方法对科技文献内在知识挖掘不足的缺欠，例如，祝清松、冷伏海[17]为了解决引文分析方法无法揭示论文的研究内容这个问题，提出引文内容分析，先建立基于规则的引文内容抽取来识别引用句，再通过基于C-value多词术语识别算法找出高被引论文主题，相比于引文分析，这种方法较能提供客观的语义信息与文献之间的语义关系。

（5）海量数据的基本统计分析方法。海量数据的七种基本统计分析方法适用于情报研究的原因是，专家们普遍认为，在现有硬件技术条件下要开发一个海量数据分析系统的难度过高，且高性能计算领域也面临许多困难，因而转向寻找共通的基础性计算方法来帮助运算[6]，同时这些统计方法也经常应用于数据挖掘或文本挖掘。对情报研究来说，处理的数据量不及高性能计算领域的海量数据，因此可以容易地应用这些基本统计分析方法。尽管如此，随着情报研究处理的文本量增加，包括文献计量或信息计量方法在内的定量分析方法，仍然要经常借鉴基础性的计算方法，并进行公式改进。

2.2调整后移植的方法

调整后移植的方法是指其在原本的领域已经成功应用，但由于该方法最早或成功应用的领域在任务需求、数据处理、分析过程有自身的特点，若移植到情报研究时，需要根据情报研究自身的特征进行调整。数据可用处理及分析方法、时空数据分析等两种分析方法就属于这类情况。

2.3不适用的方法

考虑学科领域差异，本文认为“翻译生物信息学分析”及“学习分析方法”两种专门研究方法不适合情报研究。

（1）翻译生物信息学分析。翻译生物信息学分析是生物信息学的专门分析方法，这种方法是依据特定目的整合多数据源及促进领域知识的有效利用，其结果可应用在生物医学研究、产生支持医疗人员在治疗点中的“可操作的决策”（ActionableDecision），同时能对人类与疾病的关联关系提供更好的理解。生物信息学为了找出更多基因与疾病的关系，通过翻译生物信息学分析，可以将分析方法与工具开发从系统层面横跨到分子、个人或全人类层面，分析视角从单一基因或多肽（Polymorphic）挖掘的研究转向新基因或遗传性状组合与预测研究[36]。从分析方法的操作过程来说，考虑到数据源的特殊性（如DNA编码数据、蛋白质结构等）、分析视角、工具构建及使用等因素，并不符合情报学的学科研究特色。

[1]LavalleS，LesserE，ShockleyR，etal.BigData，AnalyticsandthePathFromInsightstoValue[J].MITSloanManagementReview，2011，52（2）：21-32.

[2]RussomP.BIGDATAANALYTICS[R].TheDataWarehousingInstitute，2011.

[3]MohantyS，JagadeeshM，SrivatsaH.BigDataImperatives-EnterpriseBigDataWarehouse，BIImplementationsandAnalytics[M].NewYork：Apress，2013.

[4]Computingcommunityconsortium.ChallengesandOpportunitieswithBigData[R].Washington，DC：ComputingResearchAssociation，2012.

[5]PowerDJ.Using"BigData"foranalyticsanddecisionsupport[J].JournalofDecisionSystems，2014，23（2）：222-228.

[6]Nationalresearchcouncil.FrontiersinMassiveDataAnalysis[R].Washington，DC：TheNationalAcademiesPress，2013.

[7]LiZH，HanJW.MiningPeriodicityfromDynamicandIncompleteSpatiotemporalData[A].ChuWW，DataMiningandKnowledgeDiscoveryforBigData[M].Germany：SpringerBerlinHeidelberg，2014：41-81.

[8]魏顺平.学习分析技术：挖掘大数据时代下教育数据的价值[J].现代教育技术，2013，23（2）：5-11.

[9]ChenHC，ChiangRHL，StoreyVC.BusinessIntelligenceandAnalytics：FromBigDatatoBigImpact[J].MISQuarterly，2012，36（4）：1165-1188.

[10]严霄凤，张德馨.大数据研究[J].计算机技术与发展，2013，23（4）：168-172.

[11]孟小峰，慈祥.大数据管理：概念、技术与挑战[J].计算机研究与发展，2013，50（1）：146-169.

[12]覃雄派，王会举，杜小勇，等.大数据分析――RDBMS与MapReduce的竞争与共生[J].软件学报，2012，23（1）：32-45.

[13]SengameduS.ScalableAnalytics-AlgorithmsandSystems[A].SrinivasaS，BhatnagarV.BigDataAnalytics[M].India：SpringerBerlinHeidelberg，2012：1-7.

[14]MehtaS，SubramaniamLV.Tutorial：SocialMediaAnalytics[M].BhatnagarV，SrinivasaS.BigDataAnalytics[M].India：SpringerInternationalPublishing，2013：1-21.

[15]王炼，武夷山.方法移植对科学计量学研究的方法论启示[J].科学学研究，2006，24（4）：503-507.

[16]KroezeJH，MattheeMC，BothmaTJD.DifferentiatingData-andText-MiningTerminology：The2003annualresearchconferenceoftheSouthAfricaninstituteofcomputerscientistsandinformationtechnologistsonEnablementthroughtechnology[Z].SouthAfrica：2003：93-101.

[17]祝清松，冷伏海.基于引文内容分析的高被引论文主题识别研究[J].中国图书馆学报，2014，（1）：39-49.

[18]张树良，冷伏海.基于文献的知识发现的应用进展研究[J].情报学报，2006，25（6）：700-712.

[19]李楠，张学福.基于关联数据的知识发现应用体系研究[J].图书情报工作，2013，（6）：127-133.

[20]王辉，王晖昱，左万利.观点挖掘综述[J].计算机应用研究，2009，26（1）：25-29.

[21]黄晓斌，赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学，2009：（1）：94-99.

[22]赵洁，温润.基于新词扩充和特征选择的微博观点句识别方法[J].情报学报，2013，32（9）：945-951.

[23]单斌，李芳.基于LDA话题演化研究方法综述[J].中文信息学报，2010，24（6）：43-49.

[24]贺亮，李芳.科技文献话题演化研究[J].现代图书情报技术，2012，（4）：61-67.

[25]查先进.信息分析[M].武汉：武汉大学出版社，2011.

[26]LakshminarayanC.HighDimensionalBigDataandPatternAnalysis：ATutorial[A].BhatnagarV，SrinivasaS.BigDataAnalytics[M].India：SpringerInternationalPublishing，2013：8302，68-85.

[27]胡洁.高维数据特征降维研究综述[J].计算机应用研究，2008，（9）：2601-2606.

[28]吴晓婷，闫德勤.数据降维方法分析与研究[J].计算机应用研究，2009，（8）：2832-2835.

[29]陈涛，谢阳群.文本分类中的特征降维方法综述[J].情报学报，2005，24（6）：690-695.

[30]白如江，冷伏海.“大数据”时代科学数据整合研究[J].情报理论与实践，2014，37（1）：94-99.

[31]化柏林.多源信息融合方法研究[J].情报理论与实践，2013，（11）：16-19.

[32]李建中，刘显敏.大数据的一个重要方面：数据可用性[J].计算机研究与发展，2013，50（6）：1147-1162.

[33]王延飞，王林兰.论情报研究质量[J].图书情报工作，2010，54（10）：35-39.

[36]BellazziR，DiomidousM，SarkarI，etal.Dataanalysisanddataminingcurrentissuesinbiomedicalinformatics[J].MethodsofInformationinMedicine，2011，50（6）：536-544.

[37]NegashS.Businessintelligence[J].CommunicationsoftheAssociationforInformationSystems，2004，13（1）：177-195.

THE END

数据清洗范例6篇

原创解析：大数据分析中的数据清洗与特征工程实践精髓开发网

实现数据价值的三部曲：数据清洗数据处理和数据集成

独家大数据分析中数据清洗与特征工程实战技巧云计算网

如何有效清理数据以提高数据质量和分析效率算法去重异常值

数据清洗是什么？为什么要进行数据清洗？数据清洗的常见方法有？

网络舆情的监管大全11篇

2022年泾源县居民健康素养监测分析报告

数据清洗研究综述20231108.docx

手把手教你搞定4类数据清洗操作腾讯云开发者社区

一文读懂特征工程特征工程（featureengineering）：利用领域知识和现有数据，创造出新的特征，用于机器学习

基于数据清洗的航空飞行数据可视化处理系统及分析方法

数据清洗范文

CDALEVELⅡ?数据分析师考试?纲

重症医学ICU数据库：改变了什么？进行数据库研究临床重症

数据分析的具体工作内容是什么–PingCode

机器学习实战机器学习特征工程最全解读

《数据采集与预处理》课程思政案例

数据清洗范例6篇

大语言模型系列—预训练数据集及其清洗框架

飞渡科技为客户提供数字孪生园区城市解决方案