数据清洗流程方法与流程

【】本发明涉及数据清洗流程方法的,特别是数据清洗流程方法的。

背景技术

0、背景技术:

1、在厨具制造工业数据集成过程中,面临工业数据复杂多样,数据集成过程中的数据质量难以保障;现有的etl(提取-转换-加载)任务脚本调度方案效率低、核心业务数据更新慢,难以适应厨具制造工业大数据环境下的数据集成需求等问题。

2、本项目基于soa架构工业大数据融合、基于tan网多源异构不精确数据的清洗、etl的数据仓库管理集成技术构建自主可控智能数据资源管理平台,实现数据资源的自主可控智能化管理。

3、为了解决上述问题,实现数据资源的自主可控智能化管理,有必要提出数据清洗流程方法。

技术实现思路

0、技术实现要素:

2、为实现上述目的,本发明提出了数据清洗流程方法,包括如下步骤;

3、步骤一:进行数据采集;

4、步骤二:全字段统计重复记录数据;

5、步骤三:将数据表存在重复的数据进行数据去重;

6、步骤四:将数据进行格式转换;

7、步骤五:将转换成功的数据进行缺省值处理;

8、步骤六:进行编码标准化处理;

9、步骤七:进行黄金数据源判定;

10、步骤八:进行数据整合;

11、步骤九:数据清洗完成。

12、作为优选,所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。

13、作为优选,所述步骤四中,格式转换包含日期格式转换、字符转换数字等。

14、作为优选,所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。

15、作为优选,所述步骤五中,缺省值处理包含日期、金额、长度等。

16、作为优选,所述步骤七中,黄金数据源判定的流程如下;

17、step1:判断黄金数据源是否可以专家评定,若黄金数据源可以专家评定,则专家判定黄金源数据后,黄金数据源判定结束;

18、step2:若黄金数据源不可以专家评定,则要进入下述判定流程;

19、s1、导入要比较的样品数据;

20、s2、统计字段空值率;

21、s3、计算数据完整性指标;

22、s4、抽样检查数据的准确性;

23、s5、计算数据准确性指标;

25、s7、计算数据时效性指标;

26、s8、统计可用记录数;

27、s9、计算数据可用性指标;

28、s10、汇总计算数据质量指标;

29、s11、进行数据源指标得分对比;

30、a.比分超过2:1后,则确定黄金数据源,黄金数据源判定结束;

31、b.比分没有超过2:1后,检验通过源数据统计数据被引用数量;

32、b1.若数量比例超过1:1,则确定黄金数据源,黄金数据源判定结束;

33、b2.若数量比例没有超过1:1,则无黄金数据源,黄金数据源判定结束。

34、作为优选,所述s3中,完整性等于完整记录数除以总记录数后得到的数值再乘以100%。

35、作为优选,所述s5中,准确性等于正确记录数除以总记录数后得到的数值再乘以100%。

36、作为优选,所述s7中,时效性等于及时更新记录数除以总记录数后得到的数值再乘以100%。

37、作为优选,所述s9中,可用性等于可用记录数除以总记录数后得到的数值再乘以100%。

39、本发明的特征及优点将通过实施例结合附图进行详细说明。

1.数据清洗流程方法,其特征在于:包括如下步骤;

2.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。

3.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤四中,格式转换包含日期格式转换、字符转换数字等。

4.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。

5.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤五中,缺省值处理包含日期、金额、长度等。

6.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤七中,黄金数据源判定的流程如下;

7.如权利要求6所述的数据清洗流程方法,其特征在于:所述s3中,完整性等于完整记录数除以总记录数后得到的数值再乘以100%。

8.如权利要求1所述的数据清洗流程方法,其特征在于:所述s5中,准确性等于正确记录数除以总记录数后得到的数值再乘以100%。

9.如权利要求1所述的数据清洗流程方法,其特征在于:所述s7中,时效性等于及时更新记录数除以总记录数后得到的数值再乘以100%。

10.如权利要求1所述的数据清洗流程方法,其特征在于:所述s9中,可用性等于可用记录数除以总记录数后得到的数值再乘以100%。

THE END
1.数据清洗流程包括哪些步骤?数据清洗是指对采集的数据进行初步处理,使其符合分析要求和标准,从而提高数据质量和可信度的过程。数据清洗流程包括以下六个步骤: 数据收集 数据收集是数据清洗的第一步,这个步骤是获取数据的初始状态,可以是从数据库、API、爬虫等多种途径获得数据。在这一步骤中需要注意的是,要根据需求选择适当的数据源,并确保数据https://www.cda.cn/bigdata/202779.html
2.数据清洗流程方法与流程未命名1.本发明涉及数据清洗流程方法的技术领域,特别是数据清洗流程方法的技术领域。 背景技术: 2.在厨具制造工业数据集成过程中,面临工业数据复杂多样,数据集成过程中的数据质量难以保障;现有的etl(提取-转换-加载)任务脚本调度方案效率低、核心业务数据更新慢,难以适应厨具制造工业大数据环境下的数据集成需求等问题。 https://www.aerohome.com.cn/hangjiahao/136412.html
3.hadoop清洗数据流程mob649e815bbe69的技术博客在大数据处理中,数据清洗是一个重要的步骤。Hadoop作为一个分布式计算框架,可以帮助我们进行高效的数据清洗。本文将介绍使用Hadoop进行数据清洗的步骤和所需的代码。 流程图 开始文本文件导入HDFSMap阶段Reduce阶段结果输出结束 步骤说明 下面将分步骤介绍如何使用Hadoop清洗数据。 https://blog.51cto.com/u_16175464/7074610
4.数据处理全流程解析(如何进行数据处理)当完成这几步操作后,此时数据就已经脱离APP了,开始往数仓的方向流动,数仓承担着接收数据并最终将数据落地到应用的职责。 02 数据是如何被接收的 数据在到达接入层后会经历解包、解析转换、数据清洗、数据存储四个技术流程。只有经过了这一系列的步骤,数据才能够以规整的形式呈现出来,以供下一个环节的消费。 https://www.niaogebiji.com/article-114218-1.html
5.大数据处理流程中数据清洗工作是在()阶段完成。大数据处理流程中数据清洗工作是在()阶段完成。 "大数据处理流程中数据清洗工作是在()阶段完成。"这道题的答案是什么呢,答案在下文中哦。 大数据处理流程中数据清洗工作是在()阶段完成。 A.数据采集 B.数据预处理和导入 C.数据存储和管理 D.数据分析和挖掘https://www.duote.com/tech/tiku/279635.html
6.视频图像数据治理方法流程是什么?视频数据治理的方法流程: 视频数据治理方法主要分为三种类型,分别是: 通过视频监测数据进行实时监控:可将存储的录像中任意时间点的图像信息提取出来,再结合录像内容及历史信息进行分析、比对,可以对海量视频监控数据进行清洗,获取有效的有用信息,为实现智能分析与预警提供重要支持。 通过视频大数据分析平台实现对海量视频图https://www.goodidea168.com/gddt/37971
7.数据标注实战指南:从入门到精通2. 数据清洗 数据清洗是确保数据质量的关键步骤。包括去除重复数据、处理缺失值、消除噪声等,以提高数据的准确性和一致性。 3. 数据预处理 预处理是将数据转换成适合机器学习算法使用的格式。例如,将文本数据转换成数值数据,将图像数据转换成向量数据等。 4. 数据标注 这是数据标注流程的核心阶段。标注者需根据任务https://developer.baidu.com/article/details/3331095
8.大数据分析的流程有哪些帆软数字化转型知识库大数据分析的流程包括数据收集、数据清洗、数据存储、数据处理、数据分析、数据可视化、结果应用。其中数据清洗是确保分析准确性和可靠性的重要步骤。数据清洗涉及去除数据中的噪声、填补缺失值、处理异常值等操作。这个步骤至关重要,因为脏数据会导致分析结果失真,影响决策的准确性。通过数据清洗,可以提高数据质量,为后续的https://www.fanruan.com/blog/article/77573/
9.数据分析的八个流程8、报告撰写。 1、目标的确定 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。 数据分析的八个流程 企服解答 数据分析的八个流程包括:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、展现和输出;7、洞察结论;8https://36kr.com/p/1491281074089859
10.大数据应用的开发流程大数据常见处理流程包括:原始数据采集、数据清洗、数据存储、统计分析、存储至数据仓库、数据导出、导入数据库、数据可视化。 图片来源:学堂在线《大数据导论》 一、原始数据采集 原始数据采集的方式包括:爬虫程序采集、应用数据采集。 爬虫程序采集可在互联网中爬取需要的数据。 https://www.elecfans.com/d/2015923.html
11.面向公众版“天地图”的地名地址数据库动态更新方法*收集民政局的门牌及地名数据、工商局的企事业单位登记信息、公安局的地址信息以及其他来源的地名地址信息。以上一期“天地图”地名地址数据库为本底数据并继承其数据结构、要素分类与编码。提取基础地理信息数据库的注记、居民地、道路等图层。按照一定的清洗规则和相关流程把相似重复、不一致、属性缺失的信息进行数据清洗,https://www.fx361.com/page/2022/0424/15802407.shtml
12.RNAseq的分析流程和原理虽然转录组比对相关软件和流程同样层出不穷,但对于基因组信息较为完善的模式物种,推荐使用基因组比对的方式进行分析,具体原因下文的“比对”部分会有说明。我们下面也主要对基因组比对的方法进行介绍。 1. 数据清洗(Data cleaning) Illumina测序仪下机的数据通常为Bcl格式,是将同一个测序通道(Lane)所有样品的数据混杂http://m.yunbios.net/cn/h-nd-1079.html
13.hadoop处理数据的流程是什么问答Hadoop处理数据的流程可以分为以下几个步骤:1. 数据准备:将原始数据加载到Hadoop分布式文件系统(HDFS)中,并根据需要进行数据清洗、转换和预处理。2. 数据切分:将数据切分为适当https://www.yisu.com/ask/81214178.html