租赁大数据看板建设过程中数据清洗及程度思考数据源空值数据量

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。——某度词条

但是数据清洗过程中,如果仅仅是做一些常规判断,例如租赁订单中的用户支付金额,理应大于0元,房子的面积不能为0平方米等等,经过简单处理之后,能解决很多异常问题,但还是会有数据异常的情况,例如只约束了订单金额不能为0元,万万没想到确有负数金额的订单以及金额为空的订单,最终导致计算出来的平均数据、各区域业绩数据排行等产生异常。以下将以数据清洗的普遍流程来讨论清洗“程度”如何衡量。

一、数据有效标志

有效标志是指一条数据为有效数据的关键标志,一般即为该数据的状态字段,如支付订单的支付状态、用户信息的注册状态、商品信息的是否删除等,对字段对数据是否可采纳起着决定性作用。

有条件的话最好对原始数据做一次统计(SQL里的groupby、Excel里的筛选功能等),看看一共存在几种状态,不同状态的数据量有多少。然后对照业务流程,对数据有效标志进行筛选,可以有效减少不必要的数据及其中潜在的问题,提高后续数据分析的速度和结果质量。

如果被过滤掉的异常状态的数据量超过订单的1%,则要与负责技术开发或者数据分析的同事一起,研究数据源记录的时候是不是就有问题,甚至是存在不知道的需求或潜在bug等。

例如我们的租赁订单,有多种租赁状态:

如果要分析过往已完成的租赁交易情况,那就只需要筛选其中状态码为03或状态值为“完成”的数据,其他状态的数据一概不需要理。

但如果要分析过往所有发生过的交易情况,则需要筛选状态码为00-05状态的订单,其他状态为Null、空值、-1、或其他无法理解,及N年没用遗留的业务已经废弃不再使用的值的数据,可以考虑全部过滤掉不需要。

不同分析场景下,对于数据的需求是不一样的,不要一味的最求数据的数量,如果想着就算暂时用不上也先放着,这样很可能会加重后期数据分析中筛选的工作量,占用电脑资源卡顿、甚至死机白搞了等等。

其他:生产环境上或多或少的存在用于测试的“生产验证”数据,其中可能包含一些极端场景数值,但是此类数据未实际发生过,所以一般要在数据清洗过程中去掉。

二、数据唯一性标志

就像订单要有订单号,用户要有uuid,商品有skuid一样,系统中的数据一般都需要有唯一的ID用于进行数据的检索和区分。

但是由于bug或者子订单逻辑、不同的状态的影响,可能会出现唯一性标志重复情况,此时可能会对数据分析造成一定的影响。

例如某系统中支持用户自定义域名复用的逻辑,如果一个用户注销了账号,那么其他人就可以使用此域名,如果要分析系统一共有多少个子域名时,如果单纯统计子域名记录的数量,就会有问题,此时应该先进行子域名去重,再统计数量才对。订单位数设计较短、没有设置随机值时,也很可能出现订单号重复的问题,还有员工工号重复等问题。

但既然是“唯一”的标志,那就应该挑出重复项,并按业务需求看是否需要修复原始数据,或决定重复项的取舍方案:

另外由于bug、生产环境测试、或其他不知名的问题,还可能造成订单ID为Null、空值、-1,或不规范的订单号,这些一般都伴随有其他字段数据的残缺不全等问题。

我所分析的租赁订单中,存在有订单ID为空的记录,但是极为少数,考虑到这些数据年代久远已经不可考证了,所以直接筛选保留订单ID不为空的即可。

三、字段缺失

字段缺失是数据清洗中最常见的问题之一,造成此问题的原因也多种多样,甚至可能是导出数据时分隔符设置的不对,导致把数据csv、xls等导入分析系统或Excel后造成的错误分隔导致的。

1.检查缺失字段的比例

如果某个字段数据缺失严重,则要考虑是否存在程序bug,或者导入导出的流程是否有问题。

2.对缺失字段的数据进行处理

删除数据:

一旦发现数据中存在一个或多个关键数据缺失的,就把这条数据删了不采用。这种一刀流的做法比较适合数据字段比较少,且缺的都是关键数据的场景,例如订单中金额为空,用户的账号为空等情况。

部分采纳:

该字段只用在部分分析结果中时,例如做租赁租金的行政区县分布时,一条数据包含了租金、房子所在的行政区,但是承租人的性别为空,此时字段缺失并不影响分析结果,此场景可以考虑保留此数据。

但是要做不同性别的人租房租金偏好分析时,此数性别为空,则应不予采纳。

数据填充:

例如公司要做宣传物料,其中有要求租赁市场成交面积统计,但是系统中成交的租赁记录里,有超过5%记录房屋面积都为空没登记(与早期为非必填有关),此时就需要进行数据填充。数据填充有几种方法论可以参考:

无论是根据平均值、模型数据、人工经验进行缺失字段填充,讲究的都是有据可依,不是瞎填充数据。如果缺失的字段随机性或不确定性比较高,不适合常规的数据填充的话,如果没有更好的方法论可以采用,建议删除/不采纳此条数据。

不同的业务场景和分析需求,对于缺失数据的处理是不一样的:

追求更漂亮的数据和业绩:

理应最大化的保留数据,通过合理的方法进行数据补全。

业务发展:

可以采用部分采纳或者删除字段缺失数据的方式,最好同时配合每个字段的缺失率情况,对于业务价值高的数据,数据本身的完善程度和数据分析结果一样重要,需要从源头上解决此问题。

只是看看:

如果只是想客观看看市场行情,或者该字段并不是太重要的数据,只是走势有参考作用,则可以考虑删除对应的数据,以免造成困扰,避免空值导致计算结果偏差或报错。

四、错误数据

错误数据也是一个常见的问题,除了bug导致的错误数据外,主要出自非系统统计的,人工填写的数据上,由于缺乏有效的限制手段、审核手段,导致个别数据可能出现异常离谱的问题,从而影响到看板数据的正常统计。

例如租赁记录中,就有出租面积为20000万平方米,租金才500块的记录存在,在全局而言由于正确数据足够多,这笔订单影响微乎其微,但是如果只看这一个楼盘、商圈,那就对当地的平均租金、户型平均面积等统计都会造成重大影响,然后做排行榜的时候,这个楼盘、商圈就会突出重围排名特别靠前。

数据错误的前提是,首先知道什么是正确的,错误是相对于正确的定义而言的:

1.符合格式规范的数据

例子:要求填写阿拉伯数字

正确:123456

错误:拾贰万叁仟肆佰伍拾陆、123,456

2.符合大家共识的合理范围

例子:房屋租金,单位为元/月

正确:2000

错误:-911、999999999

3.看似不合理,但是可以通过其他内容佐证的数据

一个城市平均租赁的房屋的面积都是几十平方米,但是突然有条租赁记录是2000平方米,不过价格为10万元/月,业主、承租人、位置等信息都完整,我们觉得就有可能是正确的,大概率是租了个厂房一栋楼。但是几百平米以上的房子只要几百块甚至不要钱,很明显就不合理了。

4.可以溯源,事实如此的数据

分析师就是这笔订单的当事人,合同、现场照片甚至视频监控一应俱全……

对于错误数据,若无法有其他有效证据佐证的数据,就要结合分析场景进行处理,以免干扰分析结果。

1)根据错误类型进行划分

2)根据字段意义进行划分

五、清洗结果分析

通过对数据进行清洗后,需要统计清洗前后的数据,看清洗是否达到了目的。

1)数据损失评估

例如清洗前有关联的原始数据有10万,清洗后数据剩下了9.5万条,损失了5%的数据,如果数据分析的目的是做市场分析而不是财务报表,那么这个损失程度我们会认为在可接受范围内。

如果清洗完发现剩下不到5万条数据,就需要去思考这个清洗是否有效,是否导致重要数据被漏掉了。

2)数据失真评估

对于结果要求可靠性高的分析,如财务报表,需要对填充、调整的数据量进行评估,填充的数据加上因为非格式问题导致的数据调整,一般不能超过数据总量的5%,且最终数据的平均值,应该与清洗前完全没问题的数据平均值基本一致,相差±1%,这样填充/调整操作才可信度高。具体比例因人而异,但是填充、调整过的数据量太多,可信度会大幅下降。

数据可信度越高,代表数据失真度越低,失真度越低的数据用于业务发展规划、分析时,得出的结论可靠程度才更高。

六、总结

由于清洗方式不一样,得出的数据结论也会有小微的偏差,但是总体方向应该是一致的。

#专栏作家#

iCheer,公众号:云主子,人人都是产品经理专栏作家。房地产/物业行业产品经理,Python编程爱好者,养猫发烧友。

THE END
1.大数据什么是数据清洗?(附应用嘲及解决方案)数据清洗是一个耗时的过程,尤其是在数据量大和数据质量差的情况下,需要投入大量的时间和资源。 通过使用专业的数据处理工具,如FineDataLink,可以有效地解决数据清洗的痛点,提高数据处理的效率和质量。FineDataLink提供了多种可视化算子和功能,如新增计算列、数据过滤、数据关联等,帮助用户快速完成数据清洗和处理,无需编https://blog.csdn.net/oOBubbleX/article/details/140350709
2.大数据进行数据清洗的基本流程详细讲解数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。 1.数据分析 数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。 https://www.jianshu.com/p/33ad3063c7ce
3.大数据处理流程中数据清洗工作是在()阶段完成。大数据处理流程中数据清洗工作是在()阶段完成。 "大数据处理流程中数据清洗工作是在()阶段完成。"这道题的答案是什么呢,答案在下文中哦。 大数据处理流程中数据清洗工作是在()阶段完成。 A.数据采集 B.数据预处理和导入 C.数据存储和管理 D.数据分析和挖掘https://www.duote.com/tech/tiku/279635.html
4.大数据应用导论Chapter02大数据的采集与清洗一、数据采集的方法 什么是数据采集? 从互联网、传感器和信息系统等来源获取所需要数据的过程。 它是大数据分析流程的第一步。 下图为数据采集在各行业的应用: 上图中的不同行业会从不同的地方获取数据,通过汇总不同的数据信息,就能得到得到更大更全的数据集。 https://blog.51cto.com/14683590/5236225
5.大数据应用的开发流程数据清洗过程可以较简单,也可以较复杂。可以通过向数据缺失位置添加某值的方式简单完成数据清洗(含个人理解);也可以通过复杂的机器学习模型清洗数据。 数据清洗可借助ETL软件(根据百度百科:ETL是数据仓库技术)。一般,数据被清洗后,数据量较大,无法存储于计算机内存中,因此,需将数据存储于HDFS(数据存储)中或其他大数据存https://www.elecfans.com/d/2015923.html
6.大数据毕设基于Hadoop的音乐推荐系统的设计和实现(六)随着音乐行业的不断发展和热爱音乐的人不断增加,为了适应当今社会人们追求质量和高标准的生活,从大量的歌曲中找到个人喜好的小部分歌曲成了当务之急,然而普通的系统已经无法处理这种相当大的数据,然而基于大数据的音乐推荐系统作为可以解决这个重要难题的主要解决办法,其方法的好用程度已经成为了人类高标准生活的重要的一https://developer.aliyun.com/article/1404874
7.《大数据技术入门》课件第5章数据清洗.ppt本章小结 1)数据的不断剧增是大数据时代的显著特征,大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。 2)数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 3)ETL是数据仓库中的非常https://m.book118.com/html/2022/0821/7145130056004155.shtm
8.数据清洗流程包括哪些步骤?数据清洗是指对采集的数据进行初步处理,使其符合分析要求和标准,从而提高数据质量和可信度的过程。数据清洗流程包括以下六个步骤: 数据收集 数据收集是数据清洗的第一步,这个步骤是获取数据的初始状态,可以是从数据库、API、爬虫等多种途径获得数据。在这一步骤中需要注意的是,要根据需求选择适当的数据源,并确保数据https://www.cda.cn/bigdata/202779.html
9.大数据分析的基本步骤大数据分析的基本步骤.中琛魔方大数据分析平台(www.zcmorefun.com)表示在大数据收集、处理等一系列操作之前,通过对应用情境的充分调研、对管理决策需求信息的深入分析,可明确大数据处理与分析的目标,从而为大数据收集、存储、处理、分析等过程提供明确的方向,并保障大数据分析结果的可用性、价值性和用户需求的满足。https://www.qianjia.com/zhike/html/2020-06/3_24986.html
10.python在大数据分析中有什么应用python在大数据分析中有多个应用场景,如数据清洗和处理、数据可视化、机器学习和深度学习、自然语言处理等。此外,python在大数据分析中具有一些独特优势,包括开源免费、简单易学、提供了丰富的库和工具,且拥有高效的计算能力。 一、python在大数据分析中的应用场景 https://www.linkflowtech.com/news/1654
11.大数据技术技能分析大赛——第三章数据预处理简介:数据预处理是大数据分析的重要环节,通过数据清洗、集成、变换和规约等步骤,将原始数据转化为可被分析和利用的形式。本文将介绍数据预处理的常用方法和技巧,并探讨如何在实际应用中发挥其作用。 即刻调用文心一言能力 开通百度智能云千帆大模型平台服务自动获取1000000+免费tokens 立即体验 在大数据时代,数据已经成为企https://developer.baidu.com/article/detail.html?id=2794458
12.你还在为数据清洗头疼吗?一文帮你梳理数据清洗六大常见问题数据清洗是整个数据分析过程中不可缺少的一个环节,这个环节将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或去除,从而提升数据质量,提供给上层应用调用。 数据常见的问题可以分成六类“数据缺失值”、”数据值不匹配“、“数据重复”、”数据不合理“、“数据字段格式不统一“、”数据无用“,针对https://www.fanruan.com/bw/sjqx-2
13.浅谈大数据审计在实际开展过程中存在的问题及思考其他近几年整理一级预算单位财务数据和标准化时,发现部分基层审计机关计算机设备老旧,完成一级预算单位财务数据和标准化有相当大的压力。主要原因是以前年度对大数据审计的开展做前期规划考虑不周,加之近两年推行计算机国产化,而国产计算机及操作系统在开展大数据审计过程中的便捷性、通用性和计算机性能与以前开http://xjbz.gov.cn/xjbz/c101582/202210/083bc2ab5f7546068227a4fe528e26f1.shtml