Cleanits:制造业时序数据清洗系统传媒

关键词:工业大数据;时序建模分析;数据管理;数据挖掘;机器学习.

基于此,本文开发了一个制造业时序数据清洗系统.本文的主要贡献总结如下:

(1)本文提出了Cleanits——制造业时序数据清洗系统,该系统是国内外研发的首个面向实际工业时序数据、实现多类数据质量问题的智能检测与修复的数据清洗系统。

(4)通过在真实的工业时序数据集上的开展实验,本文验证了系统的有效性和高效性.且通过页面截图展示介绍了本文所提出的系统具有有效性、用户友好交互性等优点。

1.系统概述

(1)国家重点研发计划课题《面向高端制造领域的大数据管理系统》中《数据驱动的高端制造大数据管理系统的工具研制》子课题,课题编号:2016YFB1000703.

(2)《面向浙江省制造业的大数据分析理论与关键技术研究》,NSFC-浙江两化融合联合基金,项目编号:U1509216.

1.2系统功能介绍

本文提出的Cleanits——制造业时序数据清洗系统,主要包括五个模块,如图1所示,其中包括三个数据清洗模块:

(1)缺失值填充模块实现对序列中的不完整数据和不精确数据的有效识别和清洗。

(3)异常数据清洗模块实现对数据进行异常检测,分为异常点检测和模式异常区间检测两个部分。利用基于统计和基于学习模型的算法对异常数据进行清洗。

以及两个功能的模块:

(5)用户交互模块实现带标签数据样本读取、领域知识(约束)读取、参数设置、以及清洗模式选择功能。

1.3系统特点

在智能制造领域,全面、完备、可靠的工业大数据清洗系统已经成为目前一项迫切的需求。针对制造业大数据的特点,以及产业的数据质量管理需求,本文提出的Cleanits系统有以下特点:

(1)工业有效性:对于三类严重的工业数据质量问题:序列片段缺失、序列区间错位、异常序列区间,实现了有效的检测和修复。

(2)智能化:本系统设计相应的模块,支持对领域专家知识、工业设备结构图、有标签的样本数据等进行智能化建模分析,提高数据清洗算法的精度。

此外,本系统的研发对推动目前工业大数据的数据质量管理、乃至大数据治理也有着指导意义:

(1)功能完备:本研究充分考虑到工业大数据质量管理中的多个主要任务,并设计有效的方法加以解决。

(2)量质融合:通过对算法计算效率的优化和数据清洗任务步骤的有序安排,考虑到数据“量”对数据清洗系统提出的要求;通过提供有效、可靠的数据清洗策略,考虑到数据的“质”对系统的要求。

(3)以点带面:本文提出的系统为工业大数据管理系统开发,提出的技术和思想是为解决一类数据质量问题提出,具有较强的跨行业迁移性。该系统中的许多方法模型也适用于医疗大数据、金融大数据等类似的大数据管理系统。

2.研究内容概述

2.1基本定义

2.2方法概述

4.1方法概述

按数据处理过程,该方法分为训练阶段和测试阶段.

在第12行,我们将对G_B执行的二分图的最小顶点覆盖结果作为异常序列的识别结果输入AD(S)集合.由于无向图上最小点覆盖问题已被证实是NP完全问题,若G_B判定为不是二分图,我们采用贪心策略去寻找真正的异常序列,具体步骤是:在G_B中选择一个度最大且至少为1的顶点度最大且至少为1的顶点v,将其标注为异常,然后删除与v相连的边.重复执行这一操作,直到所有顶点的度均为0,以此方法求得异常序列集合,将其加入AD(S)中.此外,在后面步骤中(第14-15行),我们去掉异常序列重新计算时序团的特征序列进行迭代的计算,保证加入AD(S)结果集合中的序列是真实的异常序列,尽可能地避免错判和漏判.

5系统页面展示

本系统的页面设计主要分四部分:顶部导航栏区分不同的数据清洗具体算法,左侧列举三种数据清洗方法功能。页面中部为数据展示处,右侧为算法参数配置区域,也是系统与用户交互的重要页面部分。图4显示了缺失值填充的清洗结果。对不完整序列部分采用统计学上的自回归修复,蓝色线即为经系统计算后得到的修复结果。

图5显示了序列上的异常检测与修复功能。红色点即为被系统检测到的发生异常的数据点,蓝色为修复结果。用户可以通过右侧的参数配置栏选择具体的修复算法和数据导出路径。

6.研究成果总结

本文提出了一个制造业时序数据的清洗系统,实现了对制造业大数据中普遍存在的三种重要的数据质量问题的检测和修复。真实的制造业数据上的实验表明了本文所提出方法的有效性和可靠性。本文研究内容共完成学术论文3篇,其中包括已发表论文1篇,修改后待录用论文1篇,在投论文1篇。

(1)XiaoouDing,HongzhiWang,JiaxuanSu,ZijueLi,JianzhongLi,andHongGao.Cleanits:ADataCleaningSystemforIndustrialTimeSeries.PVLDB,12(12):1786-1789,2019.(中国计算机学会推荐的A类学术会议).

(3)XiaoouDing,HongzhiWang,JiaxuanSu,MuxianWang,HongGao.InconsistentDataCleaningonHighDimensionalIndustrialTimeSeries.IEEEInternetofThingsJournal2019.(中科院期刊分区:信息系统1区,已投稿).

THE END
1.数据清洗的重要性与技巧:提升大数据分析的准确性和效率提升模型性能:在机器学习和数据分析领域,模型的性能在很大程度上依赖于输入数据的质量。数据清洗包括特征选择和特征工程,这些步骤可以帮助模型更好地识别数据中的模式,从而提高模型的预测能力。 节省时间和资源:在数据分析的早期阶段进行数据清洗可以避免在后续阶段进行昂贵的修正。自动化数据清洗流程可以进一步节省时间和资https://blog.csdn.net/Shaidou_Data/article/details/144110971
2.数据清洗总结数据清洗总结 转发数据清洗 数据清洗流程 1 缺失值清洗 1.1 确定缺失值范围 对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略,可用下图表示: image.png 1.2 去除不需要的字段 直接删掉,但是务必做好每一步的备份 1.3 填充缺失值(重要,复杂)https://www.jianshu.com/p/4eb95d04a62f
3.总结了pandas实现数据清洗的7种方式以下文章来源于python数据分析之禅,作者小dull鸟 python数据分析之禅. 点击领取pandas高清速查表,后台回复“速查表”获取 最近在做“对比excel,学习pandas系列”,前面发了一篇 很受读者喜爱,今天给大家介绍一下excel和pandas实现数据清洗的种方式 1.处理数据中的空值 https://mp.weixin.qq.com/s?__biz=MjM5NjIwOTQyMA==&mid=2651838178&idx=1&sn=ddda4f225aa4bbd9c38bda50cefc2eb6&chksm=bd17c0818a6049975b3ace3661850a7a73a8f5fdc7d6daafd1653eaaa8181acd071bfa2c3a0e&scene=27
4.感悟与反思┃“数据清洗工作”的总结与反思——席义博虽然数据清洗过程中报错不断,但大家的热情不减,那段时间每天晚上和大家一起处理数据,听大家反馈的问题,然后一起讨论解决,是我每天最期待的事儿,也是我度过最开心的时光,在实践与交流中,我相信大家一定都有各自的收获! 这次数据清洗的任务,其实带动了很大一批同学对于编程的兴趣与冲动,这是个很好的开端,是凝聚大家庭http://www.sxmu.edu.cn/bdcd/info/1097/1393.htm
5.大语言模型系列—预训练数据集及其清洗框架梳理中英文训练数据集。 整理文本清洗框架。 总结现有框架的优点、问题和初步解决方案。 二、预训练数据集 大规模的高质量语料是训练大语言模型的关键“养料”。这些语料提供了世界性的知识体系,能够提升语言模型的理解能力和生成质量,同时也能够支持多样化的应用场景。事实上,高质量的文本对于大语言模型的训练和能力表现https://www.51cto.com/article/778437.html
6.数据清洗随笔分类星涅爱别离数据清洗 随笔分类 -数据清洗 总结与梳理(含之前所涉及的代码和数据) 摘要:一些特别弄混的事: 总体的总结: 数据处理的步骤: 常用的函数 注意点阅读全文 posted @2020-02-06 21:36星涅爱别离阅读(143)评论(0)推荐(0)编辑 数据清洗之数据预处理 重复值 缺失值 异常值 数据离散化https://www.cnblogs.com/xingnie/category/1641806.html
7.玩转逻辑回归之金融评分卡模型消费金融风控联盟总结一下特征分箱的优势: 特征分箱可以有效处理特征中的缺失值和异常值。 特征分箱后,数据和模型会更稳定。 特征分箱可以简化逻辑回归模型,降低模型过拟合的风险,提高模型的泛化能力。 将所有特征统一变换为类别型变量。 分箱后变量才可以使用标准的评分卡格式,即对不同的分段进行评分。 https://www.shangyexinzhi.com/article/5177142.html
8.如何进行数据预处理和清洗?总结 数据预处理和清洗是机器学习和数据分析中非常重要的步骤。通过识别和纠正缺失值、异常值、重复值和错误数据等问题,可以提高数据质量并减 少后续分析的误差和偏差。数据预处理和清洗的流程包括数据收集和选择、数据清洗、数据转换、数据集成和数据规约。在进行数据预处理和清洗时,需要根据实际情况采取不同的处理方法https://www.cda.cn/bigdata/202680.html