Cleanits:制造业时序数据清洗系统传媒

关键词:工业大数据;时序建模分析;数据管理;数据挖掘;机器学习.

基于此,本文开发了一个制造业时序数据清洗系统.本文的主要贡献总结如下:

(1)本文提出了Cleanits——制造业时序数据清洗系统,该系统是国内外研发的首个面向实际工业时序数据、实现多类数据质量问题的智能检测与修复的数据清洗系统。

(4)通过在真实的工业时序数据集上的开展实验,本文验证了系统的有效性和高效性.且通过页面截图展示介绍了本文所提出的系统具有有效性、用户友好交互性等优点。

1.系统概述

(1)国家重点研发计划课题《面向高端制造领域的大数据管理系统》中《数据驱动的高端制造大数据管理系统的工具研制》子课题,课题编号:2016YFB1000703.

(2)《面向浙江省制造业的大数据分析理论与关键技术研究》,NSFC-浙江两化融合联合基金,项目编号:U1509216.

1.2系统功能介绍

本文提出的Cleanits——制造业时序数据清洗系统,主要包括五个模块,如图1所示,其中包括三个数据清洗模块:

(1)缺失值填充模块实现对序列中的不完整数据和不精确数据的有效识别和清洗。

(3)异常数据清洗模块实现对数据进行异常检测,分为异常点检测和模式异常区间检测两个部分。利用基于统计和基于学习模型的算法对异常数据进行清洗。

以及两个功能的模块:

(5)用户交互模块实现带标签数据样本读取、领域知识(约束)读取、参数设置、以及清洗模式选择功能。

1.3系统特点

在智能制造领域,全面、完备、可靠的工业大数据清洗系统已经成为目前一项迫切的需求。针对制造业大数据的特点,以及产业的数据质量管理需求,本文提出的Cleanits系统有以下特点:

(1)工业有效性:对于三类严重的工业数据质量问题:序列片段缺失、序列区间错位、异常序列区间,实现了有效的检测和修复。

(2)智能化:本系统设计相应的模块,支持对领域专家知识、工业设备结构图、有标签的样本数据等进行智能化建模分析,提高数据清洗算法的精度。

此外,本系统的研发对推动目前工业大数据的数据质量管理、乃至大数据治理也有着指导意义:

(1)功能完备:本研究充分考虑到工业大数据质量管理中的多个主要任务,并设计有效的方法加以解决。

(2)量质融合:通过对算法计算效率的优化和数据清洗任务步骤的有序安排,考虑到数据“量”对数据清洗系统提出的要求;通过提供有效、可靠的数据清洗策略,考虑到数据的“质”对系统的要求。

(3)以点带面:本文提出的系统为工业大数据管理系统开发,提出的技术和思想是为解决一类数据质量问题提出,具有较强的跨行业迁移性。该系统中的许多方法模型也适用于医疗大数据、金融大数据等类似的大数据管理系统。

2.研究内容概述

2.1基本定义

2.2方法概述

4.1方法概述

按数据处理过程,该方法分为训练阶段和测试阶段.

在第12行,我们将对G_B执行的二分图的最小顶点覆盖结果作为异常序列的识别结果输入AD(S)集合.由于无向图上最小点覆盖问题已被证实是NP完全问题,若G_B判定为不是二分图,我们采用贪心策略去寻找真正的异常序列,具体步骤是:在G_B中选择一个度最大且至少为1的顶点度最大且至少为1的顶点v,将其标注为异常,然后删除与v相连的边.重复执行这一操作,直到所有顶点的度均为0,以此方法求得异常序列集合,将其加入AD(S)中.此外,在后面步骤中(第14-15行),我们去掉异常序列重新计算时序团的特征序列进行迭代的计算,保证加入AD(S)结果集合中的序列是真实的异常序列,尽可能地避免错判和漏判.

5系统页面展示

本系统的页面设计主要分四部分:顶部导航栏区分不同的数据清洗具体算法,左侧列举三种数据清洗方法功能。页面中部为数据展示处,右侧为算法参数配置区域,也是系统与用户交互的重要页面部分。图4显示了缺失值填充的清洗结果。对不完整序列部分采用统计学上的自回归修复,蓝色线即为经系统计算后得到的修复结果。

图5显示了序列上的异常检测与修复功能。红色点即为被系统检测到的发生异常的数据点,蓝色为修复结果。用户可以通过右侧的参数配置栏选择具体的修复算法和数据导出路径。

6.研究成果总结

本文提出了一个制造业时序数据的清洗系统,实现了对制造业大数据中普遍存在的三种重要的数据质量问题的检测和修复。真实的制造业数据上的实验表明了本文所提出方法的有效性和可靠性。本文研究内容共完成学术论文3篇,其中包括已发表论文1篇,修改后待录用论文1篇,在投论文1篇。

(1)XiaoouDing,HongzhiWang,JiaxuanSu,ZijueLi,JianzhongLi,andHongGao.Cleanits:ADataCleaningSystemforIndustrialTimeSeries.PVLDB,12(12):1786-1789,2019.(中国计算机学会推荐的A类学术会议).

(3)XiaoouDing,HongzhiWang,JiaxuanSu,MuxianWang,HongGao.InconsistentDataCleaningonHighDimensionalIndustrialTimeSeries.IEEEInternetofThingsJournal2019.(中科院期刊分区:信息系统1区,已投稿).

THE END
1.大数据什么是数据清洗?(附应用嘲及解决方案)数据清洗是一个耗时的过程,尤其是在数据量大和数据质量差的情况下,需要投入大量的时间和资源。 通过使用专业的数据处理工具,如FineDataLink,可以有效地解决数据清洗的痛点,提高数据处理的效率和质量。FineDataLink提供了多种可视化算子和功能,如新增计算列、数据过滤、数据关联等,帮助用户快速完成数据清洗和处理,无需编https://blog.csdn.net/oOBubbleX/article/details/140350709
2.大数据进行数据清洗的基本流程详细讲解数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。 1.数据分析 数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。 https://www.jianshu.com/p/33ad3063c7ce
3.大数据处理流程中数据清洗工作是在()阶段完成。大数据处理流程中数据清洗工作是在()阶段完成。 "大数据处理流程中数据清洗工作是在()阶段完成。"这道题的答案是什么呢,答案在下文中哦。 大数据处理流程中数据清洗工作是在()阶段完成。 A.数据采集 B.数据预处理和导入 C.数据存储和管理 D.数据分析和挖掘https://www.duote.com/tech/tiku/279635.html
4.大数据应用导论Chapter02大数据的采集与清洗一、数据采集的方法 什么是数据采集? 从互联网、传感器和信息系统等来源获取所需要数据的过程。 它是大数据分析流程的第一步。 下图为数据采集在各行业的应用: 上图中的不同行业会从不同的地方获取数据,通过汇总不同的数据信息,就能得到得到更大更全的数据集。 https://blog.51cto.com/14683590/5236225
5.大数据应用的开发流程数据清洗过程可以较简单,也可以较复杂。可以通过向数据缺失位置添加某值的方式简单完成数据清洗(含个人理解);也可以通过复杂的机器学习模型清洗数据。 数据清洗可借助ETL软件(根据百度百科:ETL是数据仓库技术)。一般,数据被清洗后,数据量较大,无法存储于计算机内存中,因此,需将数据存储于HDFS(数据存储)中或其他大数据存https://www.elecfans.com/d/2015923.html
6.大数据毕设基于Hadoop的音乐推荐系统的设计和实现(六)随着音乐行业的不断发展和热爱音乐的人不断增加,为了适应当今社会人们追求质量和高标准的生活,从大量的歌曲中找到个人喜好的小部分歌曲成了当务之急,然而普通的系统已经无法处理这种相当大的数据,然而基于大数据的音乐推荐系统作为可以解决这个重要难题的主要解决办法,其方法的好用程度已经成为了人类高标准生活的重要的一https://developer.aliyun.com/article/1404874
7.《大数据技术入门》课件第5章数据清洗.ppt本章小结 1)数据的不断剧增是大数据时代的显著特征,大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。 2)数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 3)ETL是数据仓库中的非常https://m.book118.com/html/2022/0821/7145130056004155.shtm
8.数据清洗流程包括哪些步骤?数据清洗是指对采集的数据进行初步处理,使其符合分析要求和标准,从而提高数据质量和可信度的过程。数据清洗流程包括以下六个步骤: 数据收集 数据收集是数据清洗的第一步,这个步骤是获取数据的初始状态,可以是从数据库、API、爬虫等多种途径获得数据。在这一步骤中需要注意的是,要根据需求选择适当的数据源,并确保数据https://www.cda.cn/bigdata/202779.html
9.大数据分析的基本步骤大数据分析的基本步骤.中琛魔方大数据分析平台(www.zcmorefun.com)表示在大数据收集、处理等一系列操作之前,通过对应用情境的充分调研、对管理决策需求信息的深入分析,可明确大数据处理与分析的目标,从而为大数据收集、存储、处理、分析等过程提供明确的方向,并保障大数据分析结果的可用性、价值性和用户需求的满足。https://www.qianjia.com/zhike/html/2020-06/3_24986.html
10.python在大数据分析中有什么应用python在大数据分析中有多个应用场景,如数据清洗和处理、数据可视化、机器学习和深度学习、自然语言处理等。此外,python在大数据分析中具有一些独特优势,包括开源免费、简单易学、提供了丰富的库和工具,且拥有高效的计算能力。 一、python在大数据分析中的应用场景 https://www.linkflowtech.com/news/1654
11.大数据技术技能分析大赛——第三章数据预处理简介:数据预处理是大数据分析的重要环节,通过数据清洗、集成、变换和规约等步骤,将原始数据转化为可被分析和利用的形式。本文将介绍数据预处理的常用方法和技巧,并探讨如何在实际应用中发挥其作用。 即刻调用文心一言能力 开通百度智能云千帆大模型平台服务自动获取1000000+免费tokens 立即体验 在大数据时代,数据已经成为企https://developer.baidu.com/article/detail.html?id=2794458
12.你还在为数据清洗头疼吗?一文帮你梳理数据清洗六大常见问题数据清洗是整个数据分析过程中不可缺少的一个环节,这个环节将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或去除,从而提升数据质量,提供给上层应用调用。 数据常见的问题可以分成六类“数据缺失值”、”数据值不匹配“、“数据重复”、”数据不合理“、“数据字段格式不统一“、”数据无用“,针对https://www.fanruan.com/bw/sjqx-2
13.浅谈大数据审计在实际开展过程中存在的问题及思考其他近几年整理一级预算单位财务数据和标准化时,发现部分基层审计机关计算机设备老旧,完成一级预算单位财务数据和标准化有相当大的压力。主要原因是以前年度对大数据审计的开展做前期规划考虑不周,加之近两年推行计算机国产化,而国产计算机及操作系统在开展大数据审计过程中的便捷性、通用性和计算机性能与以前开http://xjbz.gov.cn/xjbz/c101582/202210/083bc2ab5f7546068227a4fe528e26f1.shtml