数据清洗概述：数据质量的评价指标|数据清洗概述_家电

教育行业A股IPO第一股（股票代码003032）

全国咨询/投诉热线：400-618-4000

数据质量的评价指标主要包括数据的准确性(accuracy)、完整性(completeness)、简洁性(concision)及适用性(applicability)，其中数据的准确性、完整性和简洁性是为了保证数据的适用性。下面针对数据质量的主要评价指标进行详细的介绍。

1.准确性

数据的准确性就是要求数据中的噪声尽可能少。为提高数据的准确性，需对数据集进行降噪处理。对于数据中偏离常规、分散的小样本数据，一般可视为噪声或异常数据，可通过最常用的异常值检测方法聚类进行处理。

2.完整性

完整性指的是数据信息是否存在缺失的状况。数据缺失的情况可能是整条数据记录缺失，也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值会大大降低，也是数据质量更为基础的一项评估标准。

数据质量的完整性比较容易评估，一般通过数据统计中的记录值和唯一值进行评估。例如，网站日志访问量就是一个记录值，平时的日访问量在1000左右，突然某天降到100，就需要检查数据是否存在缺失了。

3.简洁性

简洁性就是要尽量选择重要的本质属性，并消除冗余。进行决策时，决策者往往抓住反映问题的主要因素，而不需要把问题的细节都搞得很清楚。在数据挖掘时，特征的个数越多，产生噪声的机会就越大。一些不必要的属性既会增大数据量，又会影响挖掘数据的质量。因此，选择较小的典型特征集不仅符合决策者的心理，而且还容易挖掘到简洁有价值的信息。

4.适用性

适用性是评价数据质量的重要标准。建立数据仓库的目的是进行数据挖掘、支持决策分析，而在现实世界中很难挖掘到满意的数据，但是我们可以尽量获取符合要求的数据。数据的质量是否能满足决策的需要是适用性的关键所在。尽管前面已经强调了数据的准确性、完整性和简洁性，但归根结底是为了数据的实际效用。从数据的实际效用上讲，适用性才是评价数据质量的核心准则。

THE END

数据清洗概述：数据质量的评价指标

通透！详解主数据历史数据的清洗方法和工具算法数据源

数据清洗是什么？为什么要进行数据清洗？数据清洗的常见方法有？

数据清洗的概念常见问题及实践（数据清洗）

数据清洗的概念常见问题及实践方法

数据清洗是什么，有哪些处理方法

数据清洗概述：数据质量的评价指标

数据清洗的详细解析及操作步骤概述

数据清洗研究综述20231108.docx

数据编辑使用指南

数据分析工作总结（精选9篇）

行业数据分析详解，一文搞懂哪些行业需要数据分析

云计算解读EventBridgeTransform，数据转换和处理的灵活能力干货技术博文

数据清洗夏日的向日葵

大数据清洗

数据清洗范文

大语言模型系列—预训练数据集及其清洗框架