数据清洗的概念常见问题及实践方法

今天,让我们一起了解数据清洗的概念、常见问题及实践方法。

以下几个标准有助于定义高质量数据的标准,它们分别是:

准确性:数据与标准值或真实值的接近程度

完整性:数据属性和数据记录是完整的

可追溯性:能够查找(和访问)到数据源

及时性:数据更新的速度有多快,有多及时

这些不同的特征结合起来可以帮助企业拥有高质量的数据并可用于各种不同业务目标,同时对不确定数据的假设量达到最少。

数据可以说是企业用于支持和指导其业务成功的最重要资产之一,不准确的数据可能会导致的一些问题包括:

企业如果有干净的数据,那么所有这些问题都可以避免!

数据清洗的好处

这些不同的好处结合起来,通常会使企业的业务获得更大程度的改善,这不仅能够让外部销售业务变得更有效,还能够提供更高效的内部管理和运营。

1.计算缺失比例

首先,我们可以计算每个字段的缺失值比例,然后根据比例和字段的重要性设置不同的策略。

2.删除不重要或缺失率过高的数据

如果数据不重要或者缺失率过高,我们可以直接删除字段。

3.填充缺失数据

对于重要数据或缺失率较低的数据,我们可以使用以下三种方法来填补数据:

a.根据业务知识或过往经验给出推测填充

b.利用同一指标数据计算结果(如均值、中位数等)填充

c.利用不同指标数据推算结果填充,例如用身份证信息可以揭示年龄等信息。

4.重新获得数据

对于某些缺失率高,且缺失值被认为非常重要的数据,我们可以与业务人员合作,探讨其他渠道重新获得数据的可能性,例如某些数据可能可以通过另一个数据库或API得到。

在处理数据值不匹配问题时,需要采用一些常规的清洗方法,并结合具体情况采用人工处理等方法,最终保证数据的准确性和完整性。以下是处理此类问题的两种方法:

1.清洗内容中有不合逻辑的字符

2.内容和该字段应有内容不符

在处理数据中出现内容和字段不匹配的情况时,需要采用详细识别、分类处理问题的方法。这部分的处理往往需要人工处理,尽量细致地检查,避免遗漏或误删。处理方法包括:

b.对于乱码等无法处理的问题,除了删除外,也可以先进行分类,再人工处理,提高清洗的效率和准确性。

处理重复数据需要根据具体情况来选择合适的方法。除了使用现有的数据清洗工具外,还需要结合业务规则和数据特点来进行合理的数据清洗操作。以下是处理重复数据的方法:

1.数据值完全相同的多条数据记录

对于值完全相同的数据,可以使用一些去重工具自动识别和删除重复的数据行。例如,可以使用帆软FDL等数据清洗工具进行去重操作。

2.数据主体相同,但一个属性匹配到不同的多个值

对于这种情况,可以选择通过合并多列数据来实现去重。例如,可以选择使用GROUPBY的SQL语句,将相同的记录合并在一起,或者通过编写脚本来筛选出相同的唯一记录。

需要注意的是,有些情况下可能不应该对重复记录进行去重操作。以下是几种情况:

a.重复记录用于分析演变规律

在分析数据变化历史时,重复记录是有用的,因为它们可以显示系统迭代更新时的数据变化。

b.重复的记录用于样本不均衡处理

在数据分析中,有时需要处理样本不均衡的情况。在这种情况下,重复记录可以用于增加少数类样本,从而获得更准确的数据分析结果。

c.重复的记录用于检测业务规则问题

在检测业务规则问题时,重复记录可以反映业务规则的缺陷和不足。在此情况下,需要人工验证每个记录是否有效,查看是否存在业务规则的漏洞。

处理数据不合理的问题需要使用不同的方法分析和清洗:

1.分箱

2.聚类

聚类是一种无监督学习方法,可以将数据集中的相似数据分成不同的集群。可以使用聚类来发现不同的数据群体,并查找其中的异常值/不合理值。

3.回归

需要注意的是,分析数据不合理值通常需要利用统计方法,找出数据中明显偏离正常分布范围的数据点,并考虑其异常性和实际业务情况,进行人工处理。和其他数据清洗操作类似,清洗过程也需要考虑业务逻辑,利用各种方法尽可能地提高准确率和效率。

在进行数据字段格式处理时,必须考虑到业务需要和数据质量要求,并同时验证清洗的有效性。以下是解决此类问题的方法:

1.确定正确的数据字段格式

2.清洗文本格式

对于文本字段,应该去除多余的空格、特殊字符、标点符号和其他格式问题。比较常见的文本清洗包括去掉HTML标记、转换大小写、识别并转换URL等。

3.数据类型转换

首先必须要了解大多数错误发生的位置,以便确定根本原因并构建管理数据的计划。

请记住,有效的数据清洗将会对整个企业产生全面的影响,因此尽可能保持开放和沟通是非常重要的。

数据清洗计划需要包括:

如果一些重复项确实是无意中重复输入的,请确保主动检测出并删除它们。删除所有重复的条目后,还必须考虑以下事项:

完成这5个步骤后,您的数据将可以根据需要进行导出和分析。

请记住,对于大型数据集,几乎不可能实现100%的清洁度。

1、以尽可能全面的方式考虑您的数据,不仅要考虑谁来进行分析,还要考虑谁将使用,从数据中分析得出的结果。

2、增加对数据库输入的控制可确保系统最终使用的数据更加清洁。

3、选择能够在出现问题之前可以提醒甚至解决错误数据的技术解决方案。

THE END
1.DCI数据清洗与整合平台康赛数据清洗与整合平台Comsys Data Clean Integrator(简称DCI?),集数据抽取、清洗、转换及加载于一体,通过标准化各个业务系统产生的数据,向数据中心/仓库提供可靠的数据,实现部门内的应用和跨部门的应用的业务数据间单向整合、双向整合和多级数据共享,进而为实现商业智能、数据挖掘、应用集成、正确决策分析等提供必要的http://dci.comsys.net.cn/
2.数据清洗2.0:揭秘智能化数据治理的未来智能数据清洗数据清洗2.0的创新方式正引领着数据处理和集成的新篇章。通过智能技术、自动化流程和数据挖掘等手段,数据清洗2.0优化了数据处理的效率和准确性,为业务决策提供了更有价值的洞察。随着技术的不断发展,数据清洗2.0有望实现更高级的自动化和智能化,进一步提升数据处理和集成的效率与价值。企业应密切关注数据清洗2.0的发展,https://blog.csdn.net/m0_59163425/article/details/142601864
3.业务数据清洗,落地实现方案而分析业务通常都是要面对全局数据,如果出现大量的上述情况,就会导致数据在使用的时候难度非常大,随之也会带来很多问题:数据分散不规范,导致响应性能差,稳定性低,同时提高管理成本。 当随着业务发展,数据的沉淀越来越多,使用的难度就会陡增,会导致在数据分析之前,需要大量时间去清洗数据。 https://xie.infoq.cn/article/8b2e8c2b1609e3f90bf902a3f
4.一文看懂风控模型所有(应该)银行信息2)数据业务理解 3)数据探索分析 4)定义目标变量 5)样本设计和抽取策略 6)数据清洗 7)特征衍生 8)特征变量筛选 9)模型变量分箱 10)模型拟合 11)模型评估常用指标 12)模型预测概率校准 13)模型违约概率误差校准 五.评分模型如何应用于决策 六.技术的升华之路 http://www.sinotf.com/GB/SME/Bankinfo/2020-05-07/2OMDAwMDM0MzE2OA.html
5.Prompt用得好,增长工作下班早增长工作繁重复杂,需对用户、收入、核心路径转化率负责,使用产品设计、各类运营动作等多样化手段,达到业务数据的增长目标。 本文将介绍增长工作中亲测好用的 prompt(提示词),助力高效办公。无论你是创业者、产品经理还是市场营销人员,都可获得有价值的干货。 https://www.niaogebiji.com/article-645093-1.html
6.数据分析过程中有哪些常见错误四、数据解释错误,包括数据解释和业务理解错误。 一、数据清洗错误 数据清洗是数据分析过程中的一个关键步骤,它可以保证数据的准确性和完整性。以下是数据清洗中的常见错误介绍: 1.缺失值处理错误 缺失值是数据分析中常见的问题,如果缺失值处理不当,可能会影响数据分析的准确性。常见的处理方法包括删除缺失值和填充缺https://www.linkflowtech.com/news/1602
7.ETL设计详解(数据抽取清洗与转换)数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据三大类。 A. 不完整的数据,其特征是是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主https://www.jianshu.com/p/6b88d125c949
8.帆软FineBI数据编辑,帮你省下80%浪费在数据处理的时间!数据处理工作难,因为数据是混乱的。就连分析师朋友也自嘲到,日常要用80%的时间处理数据,另外20%的时间抱怨数据处理有多难……但在“数据时代”,处理数据的能力同英语、驾驶一样成为普适型的需求了。那么作为普通的业务人员如何应对数据时代下的挑战呢? https://www.360doc.cn/mip/1132147943.html
9.大数据平台架构重构从上图可知,主要基于Hadoop1.x+hive做离线计算(T+1),基于大数据平台的数据采集、数据接入、数据清洗、作业调度、平台监控几个环节存在的一些问题来列举下。 数据采集: 数据收集接口众多,且数据格式混乱,基本每个业务都有自己的上报接口 存在较大的重复开发成本 https://www.upyun.com/opentalk/380.html
10.大数据平台层级结构12351CTO博客(2)数据仓库是集成的,数据仓库中的数据可能来源于多个数据源,数据仓库会将需要的数据从中抽取出来,然后进一步转化、清洗,再集成到数据仓库中。 (3)数据仓库是不可更新的,数据仓库主要是为业务提供分析决策的数据,因此,对数据的主要操作都是查询。 数据仓库的数据要为业务提供快速高效的分析,因此数据仓库只有满足如下http://zhuxianzhong.blog.51cto.com/157061/4912923/