数据质量问题会对大数据的应用产生负面影响,因此需要对大数据中存在的数据质量问题进行清洗修复。针对多模态数据中多种大数据质量问题,项目组提出了一系列数据清洗算法,并开发了基于MapReduce和Hyracks等并行计算平台大数据清洗系统CleanCloud和面向工业时序数据的清洗系统Cleanits。
并行数据清洗系统CleanCloud
主要功能:
2.真值发现:在混有数据质量错误的冲突数据中找到属性的真实值。
3.不一致检测与修复:实际数据集合中通常包含了某些违反最初定义的完整性约束的数据,造成集合内或者不同数据集合间的不一致情况,本系统可利用完整性约束对数据中不一致情况进行检测和修复清洗。
4.缺失值填充:对数据集合中存在的数据缺失问题进行有效的填充修复。
5.数据清洗结果可视化:数据质量检测和清洗的结果以图、表形式展示给用户,让用户对数据集合的质量评估情况有直观的认识。
系统特点:
可扩展性:构建FLI三层体系实现了在MapReduce上部署的多个子任务合并优化策略,实现并行数据清洗过程。
有效性:对于多种数据质量问题:数据不一致、数据缺失、数据错误等能够进行有效的检测和修复。
技术特点
在实体识别上,读取预处理的数据后,对同一属性索引表中的实体按计算相似度与阈值进行比较,大于阈值的相似对输出成相似对集合文件,之后采用实体划分模型,依据相似对集合文件生成图,通过对图的划分获得实体划分结果。
在不一致数据的检测和修复上,首先让用户输入给定的CFD规则,根据这些CFD规则,判断数据集合中的常量违反与变量违反,本系统优化了不一致数据的检测,将常量违反检测与修复的功能直接迁移到变量违反检测与修复的第一轮MapReduce中,使MapReduce轮数和IO次数均有减少。
在缺失值填充上,本系统利用朴素贝叶斯分类的缺失值填充机制,识别出带有缺失值的原始数据后,根据公式计算含有缺失值的元组在其依赖属性取值范围内确定待填充值的概率,选择条件概率最大的进行填充。本系统优化缺失填充过程,通过更改参数估计模块输出数据所包含的信息和格式,使其数据结果直接应用于填充模块,减少中间计算量。
页面展示
数据源连接页面
数据处理进度页面
数据清洗后数据集展示页面
概述
工业大数据分析的合理性和可靠性对数据质量提出较高要求,然而,机器采集的原始数据中往往混有许多错误,物联网数据中存在无效工况、时标错误、时标不齐、异常工况等问题。这些低质量数据限制了对工业数据的深入分析。
1)实现了基于顺序约束的检测与修复功能;
2)实现了基于方差约束的检测与修复功能;
4.参数设置与录入功能
5.数据清洗结果统计与展示功能:数据清洗结果以图、表形式展示给用户。