数据治理:如何实施数据清洗,提升数据质量?发展导航中国发展网

在数据治理工作中,为了彻底解决企业的数据质量历史遗留问题(数据不一致、不完整、不合规、数据冗余等),必须对存量数据进行改造,实施“数据清洗”工作。

“数据清洗(Datacleaning)”一词,是数据治理领域中的专业术语。从字面意义上理解,“数据清洗”就是将数据上“脏”的部分清洗干净,让数据变得干净整洁可用。从专业角度来说,对于企业中的存量(历史)数据,“数据清洗”能够补充其缺失的部分、纠正或删除其不正确的部分、筛选并清除其重复多余的部分,最后将其整理成便于被分析和使用的“高质量数据”。

中翰将数据清洗的工作内容总结为以下两点:

●问题数据的补充、调整;

●冗余数据的查重、映射。

二、数据清洗的流程和策略

企业的数据质量问题经过发展多年的累积,清洗难度较大。要彻底“洗掉”企业存量数据中的“脏数据”,且有效避免“脏数据”再次出现形成污染,必须按照一定的原则和方法开展实施工作。

对此,中翰凭借多年的工作经验,不仅总结制定出了一套科学有效的实施流程和策略,还研发了基于中翰数据治理平台的数据清洗平台组件,显著提高了数据清洗改造的工作效能。

(一)分析存量数据质量

企业存量数据质量的分析工作是否到位,很大程度上决定了数据清洗改造的成功与否。

(二)制定清洗策略

企业在制定数据清洗策略时,要考虑两方面内容:

1.根据企业自身实际情况选择不同数据清洗模式,具体方法见图二:

2.根据数据的不同类型选择有针对性的清洗方法,具体方法见图三:

(三)制定清洗规则

数据清洗策略的制定属于宏观层面上工作方向的确定,落实到具体实施工作中,还需要确定一些工作细则,以支持实际清洗工作的顺畅有序进行。

数据清洗规则包括清洗流程、清洗分工、清洗内容、方法手段等几个方面,需要具体情况具体分析,在此展示一些普适性工作流程(图四)和某家公司数据清洗的工作内容(图五)和分工(图六)作为示例:

(四)在技术支撑下实施数据清洗

准备工作完成后,数据清洗的实施工作需要依靠一定的技术手段来进行。中翰自主研发的数据治理平台,包含数据清洗平台组件,可以实现:

1.通过数据质量模型管理,对导入的存量数据进行质量核查;

2.通过流程管理功能,实现存量数据改造的工作分配、监控;

(五)数据清洗后的业务系统处理

存量数据清洗并产生映射关系后,数据清洗工作并未结束。最终还需要确定被清洗出来的问题数据的归属。有些问题数据还处在使用过程中,直接停用会对业务产生影响。根据以往经验,中翰规划了清洗后问题数据的处理方案(见图八),在工作中,可结合企业的实际情况进行调整。

THE END
1.大数据进行数据清洗的基本流程数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。下面通过一张图描述数据清洗的基本流程,具体如图所示。 接下来针对图中数据清洗的基本流程进行详细讲解。 1.数据分析 https://www.jianshu.com/p/1bc63211e025
2.数据分析基本流程有哪些数据分析主要有八个流程:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、将数据展现和输出;7、洞察结论;8、报告撰写。 1、目标的确定 只有弄清分析的目的是什么?才能准确定位分析因子,提出有价值的问题,提供清晰的思路。 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来https://www.linkflowtech.com/news/614
3.数据清洗的基本流程包括()步骤。A数据分析B定义数据清洗的数据清洗的基本流程包括()步骤。A、数据分析B、定义数据清洗的策略和规则C、搜寻并确定错误实例D、纠正发现的错误搜索 题目 数据清洗的基本流程包括()步骤。 A、数据分析 B、定义数据清洗的策略和规则 C、搜寻并确定错误实例 D、纠正发现的错误 答案 解析https://easylearn.baidu.com/edu-page/tiangong/bgkdetail?id=aa83547addccda38376bafbe&fr=search
4.机器学习的基本过程流程图好的,以下是机器学习的基本过程流程图: 数据预处理:收集并清洗数据,包括去除异常值和缺失值等。 特征工程:对数据进行特征提取和转换,以便于机器学习算法的处理。 模型选择:选择适当的机器学习算法,根据数据类型和问题类型进行选择。 模型训练:使用训练数据对所选模型进行训练,调整模型的超参数。 https://wenku.csdn.net/answer/5ac401b46e804515af9fa3a25c881f30
5.大数据处理流程中数据清洗工作是在()阶段完成。确保数据换装质量和作业安全的前提下,由变化的线路所属铁路局决定在施工地点两端临近车站进行固定径路列车担当机车的 。 查看完整题目与答案 IC卡数据文件编制软件维护、管理由 负责,有关参数由电务段、机务段共同确定。 查看完整题目与答案 计算机结构化程序设计用( )种基本结构。 查看完整题目与答案 IC卡数据文件https://www.shuashuati.com/ti/2188e57ea66f4b41b60079e6f0873d76.html?fm=bd3b7f0d25f4f0ca340ecbbca695862350
6.大数据毕设基于Hadoop的音乐推荐系统的设计和实现(六)可以基于不同的用户数据,来分析并且产生最优的推荐结果,这样可以在系统对外扩展的时候能够减少投入的、并且能够快速取得预期结果。在设计该系统时,要设计一个完整的数据处理流程:数据清洗,数据上传,数据分析,数据存储,数据可视化。这个系统主要是针对于数据,对于数据进行处理,然后分析,能够得到推荐的结果,主要是基于协同https://developer.aliyun.com/article/1404874
7.数据清洗流程包括哪些步骤?数据清洗流程包括哪些步骤? 数据清洗是指对采集的数据进行初步处理,使其符合分析要求和标准,从而提高数据质量和可信度的过程。数据清洗流程包括以下六个步骤: 数据收集 数据收集是数据清洗的第一步,这个步骤是获取数据的初始状态,可以是从数据库、API、爬虫等多种途径获得数据。在这一步骤中需要注意的是,要根据需求https://www.cda.cn/bigdata/202779.html
8.科学网—系统:R语言贝叶斯网络模型R语言贝叶斯模型进阶R语言3.掌握利用R实现贝叶斯静态和动态网络学习的步骤和流程 4.掌握利用R进行贝叶斯网络推理的要点 5.通过理论知识学习与上机实践操作,具备构建贝叶斯网络模型的能力,实现科研和生产实践目的 专题一:R语言实现Bayesian Network分析的基本流程 R语言的数据类型与基本操作 https://wap.sciencenet.cn/blog-3539141-1414917.html
9.无锡政府采购网·无锡市城市信息模型(CIM)基础平台(一期工程)项目充分调研相关业务现状、数据资源现状、系统建设现状,明确无锡市城市信息模型(CIM)基础平台的发展定位和总体目标、实施计划及步骤,对平台定位、总体设计、技术路线、平台构成及数据资源体系等进行合理、可行、先进的设计,为无锡市城市信息模型(CIM)基础平台建设提供纲领性、框架性、指导性目标,推动CIM平台在城市规划、设计、https://cz.wuxi.gov.cn/doc/2024/04/17/4290410.shtml
10.数据处理全流程解析(如何进行数据处理)当完成这几步操作后,此时数据就已经脱离APP了,开始往数仓的方向流动,数仓承担着接收数据并最终将数据落地到应用的职责。 02 数据是如何被接收的 数据在到达接入层后会经历解包、解析转换、数据清洗、数据存储四个技术流程。只有经过了这一系列的步骤,数据才能够以规整的形式呈现出来,以供下一个环节的消费。 https://www.niaogebiji.com/article-114218-1.html
11.数据清洗标准与规范(31页)数据清洗流程和基本原则 数据清洗工具和技术介绍 数据清洗实例展示与分析 数据清洗常见问题及解决方案 数据清洗管理与质量保证 数据清洗未来发展趋势ContentsPage目录页 数据清洗定义与重要性数据清洗标准与规范 数据清洗定义与重要性数据清洗定义1.数据清洗是指对原始数据进行审核、纠正、转换和整理,以提高数据质量、准确性https://m.book118.com/html/2023/1228/8035074044006021.shtm
12.面向公众版“天地图”的地名地址数据库动态更新方法*收集民政局的门牌及地名数据、工商局的企事业单位登记信息、公安局的地址信息以及其他来源的地名地址信息。以上一期“天地图”地名地址数据库为本底数据并继承其数据结构、要素分类与编码。提取基础地理信息数据库的注记、居民地、道路等图层。按照一定的清洗规则和相关流程把相似重复、不一致、属性缺失的信息进行数据清洗,https://www.fx361.com/page/2022/0424/15802407.shtml
13.hadoop清洗数据流程mob649e815bbe69的技术博客在大数据处理中,数据清洗是一个重要的步骤。Hadoop作为一个分布式计算框架,可以帮助我们进行高效的数据清洗。本文将介绍使用Hadoop进行数据清洗的步骤和所需的代码。 流程图 开始文本文件导入HDFSMap阶段Reduce阶段结果输出结束 步骤说明 下面将分步骤介绍如何使用Hadoop清洗数据。 https://blog.51cto.com/u_16175464/7074610
14.数据分析的八个流程8、报告撰写。 1、目标的确定 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。 数据分析的八个流程 企服解答 数据分析的八个流程包括:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、展现和输出;7、洞察结论;8https://36kr.com/p/1491281074089859