【】本发明涉及数据清洗流程方法的,特别是数据清洗流程方法的。
背景技术
0、背景技术:
1、在厨具制造工业数据集成过程中,面临工业数据复杂多样,数据集成过程中的数据质量难以保障;现有的etl(提取-转换-加载)任务脚本调度方案效率低、核心业务数据更新慢,难以适应厨具制造工业大数据环境下的数据集成需求等问题。
2、本项目基于soa架构工业大数据融合、基于tan网多源异构不精确数据的清洗、etl的数据仓库管理集成技术构建自主可控智能数据资源管理平台,实现数据资源的自主可控智能化管理。
3、为了解决上述问题,实现数据资源的自主可控智能化管理,有必要提出数据清洗流程方法。
技术实现思路
0、技术实现要素:
2、为实现上述目的,本发明提出了数据清洗流程方法,包括如下步骤;
3、步骤一:进行数据采集;
4、步骤二:全字段统计重复记录数据;
5、步骤三:将数据表存在重复的数据进行数据去重;
6、步骤四:将数据进行格式转换;
7、步骤五:将转换成功的数据进行缺省值处理;
8、步骤六:进行编码标准化处理;
9、步骤七:进行黄金数据源判定;
10、步骤八:进行数据整合;
11、步骤九:数据清洗完成。
12、作为优选,所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。
13、作为优选,所述步骤四中,格式转换包含日期格式转换、字符转换数字等。
14、作为优选,所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。
15、作为优选,所述步骤五中,缺省值处理包含日期、金额、长度等。
16、作为优选,所述步骤七中,黄金数据源判定的流程如下;
17、step1:判断黄金数据源是否可以专家评定,若黄金数据源可以专家评定,则专家判定黄金源数据后,黄金数据源判定结束;
18、step2:若黄金数据源不可以专家评定,则要进入下述判定流程;
19、s1、导入要比较的样品数据;
20、s2、统计字段空值率;
21、s3、计算数据完整性指标;
22、s4、抽样检查数据的准确性;
23、s5、计算数据准确性指标;
25、s7、计算数据时效性指标;
26、s8、统计可用记录数;
27、s9、计算数据可用性指标;
28、s10、汇总计算数据质量指标;
29、s11、进行数据源指标得分对比;
30、a.比分超过2:1后,则确定黄金数据源,黄金数据源判定结束;
31、b.比分没有超过2:1后,检验通过源数据统计数据被引用数量;
32、b1.若数量比例超过1:1,则确定黄金数据源,黄金数据源判定结束;
33、b2.若数量比例没有超过1:1,则无黄金数据源,黄金数据源判定结束。
34、作为优选,所述s3中,完整性等于完整记录数除以总记录数后得到的数值再乘以100%。
35、作为优选,所述s5中,准确性等于正确记录数除以总记录数后得到的数值再乘以100%。
36、作为优选,所述s7中,时效性等于及时更新记录数除以总记录数后得到的数值再乘以100%。
37、作为优选,所述s9中,可用性等于可用记录数除以总记录数后得到的数值再乘以100%。
39、本发明的特征及优点将通过实施例结合附图进行详细说明。
1.数据清洗流程方法,其特征在于:包括如下步骤;
2.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。
3.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤四中,格式转换包含日期格式转换、字符转换数字等。
4.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。
5.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤五中,缺省值处理包含日期、金额、长度等。
6.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤七中,黄金数据源判定的流程如下;
7.如权利要求6所述的数据清洗流程方法,其特征在于:所述s3中,完整性等于完整记录数除以总记录数后得到的数值再乘以100%。
8.如权利要求1所述的数据清洗流程方法,其特征在于:所述s5中,准确性等于正确记录数除以总记录数后得到的数值再乘以100%。
9.如权利要求1所述的数据清洗流程方法,其特征在于:所述s7中,时效性等于及时更新记录数除以总记录数后得到的数值再乘以100%。
10.如权利要求1所述的数据清洗流程方法,其特征在于:所述s9中,可用性等于可用记录数除以总记录数后得到的数值再乘以100%。