数据清洗概述:数据质量的评价指标

教育行业A股IPO第一股(股票代码003032)

全国咨询/投诉热线:400-618-4000

数据质量的评价指标主要包括数据的准确性(accuracy)、完整性(completeness)、简洁性(concision)及适用性(applicability),其中数据的准确性、完整性和简洁性是为了保证数据的适用性。下面针对数据质量的主要评价指标进行详细的介绍。

1.准确性

数据的准确性就是要求数据中的噪声尽可能少。为提高数据的准确性,需对数据集进行降噪处理。对于数据中偏离常规、分散的小样本数据,一般可视为噪声或异常数据,可通过最常用的异常值检测方法聚类进行处理。

2.完整性

完整性指的是数据信息是否存在缺失的状况。数据缺失的情况可能是整条数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值会大大降低,也是数据质量更为基础的一项评估标准。

数据质量的完整性比较容易评估,一般通过数据统计中的记录值和唯一值进行评估。例如,网站日志访问量就是一个记录值,平时的日访问量在1000左右,突然某天降到100,就需要检查数据是否存在缺失了。

3.简洁性

简洁性就是要尽量选择重要的本质属性,并消除冗余。进行决策时,决策者往往抓住反映问题的主要因素,而不需要把问题的细节都搞得很清楚。在数据挖掘时,特征的个数越多,产生噪声的机会就越大。一些不必要的属性既会增大数据量,又会影响挖掘数据的质量。因此,选择较小的典型特征集不仅符合决策者的心理,而且还容易挖掘到简洁有价值的信息。

4.适用性

适用性是评价数据质量的重要标准。建立数据仓库的目的是进行数据挖掘、支持决策分析,而在现实世界中很难挖掘到满意的数据,但是我们可以尽量获取符合要求的数据。数据的质量是否能满足决策的需要是适用性的关键所在。尽管前面已经强调了数据的准确性、完整性和简洁性,但归根结底是为了数据的实际效用。从数据的实际效用上讲,适用性才是评价数据质量的核心准则。

THE END
1.大数据什么是数据清洗?(附应用嘲及解决方案)数据清洗是一个耗时的过程,尤其是在数据量大和数据质量差的情况下,需要投入大量的时间和资源。 通过使用专业的数据处理工具,如FineDataLink,可以有效地解决数据清洗的痛点,提高数据处理的效率和质量。FineDataLink提供了多种可视化算子和功能,如新增计算列、数据过滤、数据关联等,帮助用户快速完成数据清洗和处理,无需编https://blog.csdn.net/oOBubbleX/article/details/140350709
2.19数据清洗知识之数据清洗概述数据清洗的目标17|描述性统计知识之离散程度的测度、数据分布的形状 时长45:57 18|描述性统计知识之相关分析与回归分析实操 时长36:46 19|数据清洗知识之数据清洗概述、数据清洗的目标 时长37:03 20|数据清洗知识之解决数据质量问题 时长41:05 21|数据清洗知识之提高数据易用性 时长55:03 22|数据清洗知识之Python实操演练 https://time.geekbang.org/course/detail/100117306-545493
3.数据清洗处理概述想要在Cocoa /目标-C中连接到SQLite数据库的简单概述 如何使用等效于#region / #endregion(概述)组织XML数据 C#设计转储/概述?类统计数据 相关文章 ETL数据清洗概述 数据预处理-数据清洗 数据清洗-缺失值处理 数据清洗与特征处理 数据清洗(二)---缺失数据处理 数据预处理https://www.pianshen.com/article/2731712359
4.用于产生真实世界证据的真实世界数据指导原则(征求意见稿)一、概述 真实世界证据(RealWorld Evidence,RWE)是药物有效性和安全性评价证据链的重要组成部分,其相关概念和应用参见《真实世界证据支持药物研发与审评的指导原则(试行)》。而真实世界数据(Real World Data, RWD)则是产生RWE的基础,没有高质量的适用的RWD支持,RWE亦无从谈起。 https://www.cn-healthcare.com/articlewm/20200804/content-1135188.html
5.R语言数据清理极客教程在这篇文章中,我们将简要介绍一下数据清洗的应用和它在R编程语言中的实现技术。R语言中 的数据清理数据清洗是将原始数据转化为易于分析的一致数据的过程。它的目的是根据数据以及它们的可靠性来过滤统计报表的内容。此外,它还会影响基于数据的统计报表,并提高你的数据质量和整体生产力。https://geek-docs.com/r-language/r-tutorials/g_data-cleaning-in-r.html
6.大数据应用导论Chapter02大数据的采集与清洗1、Python数据清洗概述 Python是大数据清洗常用的工具之一。除了Python以外还有Trifacta Wrangler 和 OpenRefine两种常用的大数据清洗工具。 Python的Pandas和Sklearn库可进行数据转换等操作 Pandas库:提供数据导入、数据可视化、整合、转换等功能 Sklearn库:提供数据标准化、数据离散化、特征编码等功能 https://blog.51cto.com/14683590/5236225
7.数据集成服务(SSIS)概述腾讯云腾讯云数据库 SQL Server 发布商业智能服务器,提供集数据存储、抽取、转换、装载、可视化分析一体的全套商业智能解决方案,目前已支持 SSIS 数据集成服务。使用 Integration Services 可解决复杂的业务场景,例如合并来自异构数据存储区的数据、数据清洗和数据标准化、填充数据仓库和数据集、处理复杂商业逻辑的数据转换、支持管https://intl.cloud.tencent.com/zh/document/product/238/48060
8.www.ptzfcg.gov.cn/upload/document/20180724/0279275ee54644f69.2投标人应在投标截止时间前按照福建省政府采购网上公开信息系统设定的操作流程将电子投标文件上传至福建省政府采购网上公开信息系统,同时将投标人的CA证书连同密封的纸质投标文件送达招标文件第一章第10条载明的地点,否则投标将被拒绝。 10、开标时间及地点:详见招标公告或更正公告(若有),若不一致,以更正公告(若有)http://www.ptzfcg.gov.cn/upload/document/20180724/0279275ee54644f6adb79e806e1b3734.html
9.ETL设计详解(数据抽取清洗与转换)概述 ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候也是从https://www.jianshu.com/p/6b88d125c949
10.《数据采集与清洗》课程教学大纲.docx(支持毕业能力要求5) 四、教学内容、安排及与教学目标的对应关系单元教学内容单元教学目标学时教学方式对应课程教学目标 1 一、技术概述 1.1 大数据采集技术 1.2 数据预处理技术 1.3数据清洗概述? 1.3.1 数据清洗简介 1.3.2 数据标准化 1.3.3 数据仓库简介 (1)能正确阐述大数据处理的一般流程;(2)能准确说明数据https://max.book118.com/html/2022/0226/8016111055004060.shtm