关键词:工业大数据;时序建模分析;数据管理;数据挖掘;机器学习.
基于此,本文开发了一个制造业时序数据清洗系统.本文的主要贡献总结如下:
(1)本文提出了Cleanits——制造业时序数据清洗系统,该系统是国内外研发的首个面向实际工业时序数据、实现多类数据质量问题的智能检测与修复的数据清洗系统。
(4)通过在真实的工业时序数据集上的开展实验,本文验证了系统的有效性和高效性.且通过页面截图展示介绍了本文所提出的系统具有有效性、用户友好交互性等优点。
1.系统概述
(1)国家重点研发计划课题《面向高端制造领域的大数据管理系统》中《数据驱动的高端制造大数据管理系统的工具研制》子课题,课题编号:2016YFB1000703.
(2)《面向浙江省制造业的大数据分析理论与关键技术研究》,NSFC-浙江两化融合联合基金,项目编号:U1509216.
1.2系统功能介绍
本文提出的Cleanits——制造业时序数据清洗系统,主要包括五个模块,如图1所示,其中包括三个数据清洗模块:
(1)缺失值填充模块实现对序列中的不完整数据和不精确数据的有效识别和清洗。
(3)异常数据清洗模块实现对数据进行异常检测,分为异常点检测和模式异常区间检测两个部分。利用基于统计和基于学习模型的算法对异常数据进行清洗。
以及两个功能的模块:
(5)用户交互模块实现带标签数据样本读取、领域知识(约束)读取、参数设置、以及清洗模式选择功能。
1.3系统特点
在智能制造领域,全面、完备、可靠的工业大数据清洗系统已经成为目前一项迫切的需求。针对制造业大数据的特点,以及产业的数据质量管理需求,本文提出的Cleanits系统有以下特点:
(1)工业有效性:对于三类严重的工业数据质量问题:序列片段缺失、序列区间错位、异常序列区间,实现了有效的检测和修复。
(2)智能化:本系统设计相应的模块,支持对领域专家知识、工业设备结构图、有标签的样本数据等进行智能化建模分析,提高数据清洗算法的精度。
此外,本系统的研发对推动目前工业大数据的数据质量管理、乃至大数据治理也有着指导意义:
(1)功能完备:本研究充分考虑到工业大数据质量管理中的多个主要任务,并设计有效的方法加以解决。
(2)量质融合:通过对算法计算效率的优化和数据清洗任务步骤的有序安排,考虑到数据“量”对数据清洗系统提出的要求;通过提供有效、可靠的数据清洗策略,考虑到数据的“质”对系统的要求。
(3)以点带面:本文提出的系统为工业大数据管理系统开发,提出的技术和思想是为解决一类数据质量问题提出,具有较强的跨行业迁移性。该系统中的许多方法模型也适用于医疗大数据、金融大数据等类似的大数据管理系统。
2.研究内容概述
2.1基本定义
2.2方法概述
4.1方法概述
按数据处理过程,该方法分为训练阶段和测试阶段.
在第12行,我们将对G_B执行的二分图的最小顶点覆盖结果作为异常序列的识别结果输入AD(S)集合.由于无向图上最小点覆盖问题已被证实是NP完全问题,若G_B判定为不是二分图,我们采用贪心策略去寻找真正的异常序列,具体步骤是:在G_B中选择一个度最大且至少为1的顶点度最大且至少为1的顶点v,将其标注为异常,然后删除与v相连的边.重复执行这一操作,直到所有顶点的度均为0,以此方法求得异常序列集合,将其加入AD(S)中.此外,在后面步骤中(第14-15行),我们去掉异常序列重新计算时序团的特征序列进行迭代的计算,保证加入AD(S)结果集合中的序列是真实的异常序列,尽可能地避免错判和漏判.
5系统页面展示
本系统的页面设计主要分四部分:顶部导航栏区分不同的数据清洗具体算法,左侧列举三种数据清洗方法功能。页面中部为数据展示处,右侧为算法参数配置区域,也是系统与用户交互的重要页面部分。图4显示了缺失值填充的清洗结果。对不完整序列部分采用统计学上的自回归修复,蓝色线即为经系统计算后得到的修复结果。
图5显示了序列上的异常检测与修复功能。红色点即为被系统检测到的发生异常的数据点,蓝色为修复结果。用户可以通过右侧的参数配置栏选择具体的修复算法和数据导出路径。
6.研究成果总结
本文提出了一个制造业时序数据的清洗系统,实现了对制造业大数据中普遍存在的三种重要的数据质量问题的检测和修复。真实的制造业数据上的实验表明了本文所提出方法的有效性和可靠性。本文研究内容共完成学术论文3篇,其中包括已发表论文1篇,修改后待录用论文1篇,在投论文1篇。
(1)XiaoouDing,HongzhiWang,JiaxuanSu,ZijueLi,JianzhongLi,andHongGao.Cleanits:ADataCleaningSystemforIndustrialTimeSeries.PVLDB,12(12):1786-1789,2019.(中国计算机学会推荐的A类学术会议).
(3)XiaoouDing,HongzhiWang,JiaxuanSu,MuxianWang,HongGao.InconsistentDataCleaningonHighDimensionalIndustrialTimeSeries.IEEEInternetofThingsJournal2019.(中科院期刊分区:信息系统1区,已投稿).