数据清洗流程方法与流程

【】本发明涉及数据清洗流程方法的,特别是数据清洗流程方法的。

背景技术

0、背景技术:

1、在厨具制造工业数据集成过程中,面临工业数据复杂多样,数据集成过程中的数据质量难以保障;现有的etl(提取-转换-加载)任务脚本调度方案效率低、核心业务数据更新慢,难以适应厨具制造工业大数据环境下的数据集成需求等问题。

2、本项目基于soa架构工业大数据融合、基于tan网多源异构不精确数据的清洗、etl的数据仓库管理集成技术构建自主可控智能数据资源管理平台,实现数据资源的自主可控智能化管理。

3、为了解决上述问题,实现数据资源的自主可控智能化管理,有必要提出数据清洗流程方法。

技术实现思路

0、技术实现要素:

2、为实现上述目的,本发明提出了数据清洗流程方法,包括如下步骤;

3、步骤一:进行数据采集;

4、步骤二:全字段统计重复记录数据;

5、步骤三:将数据表存在重复的数据进行数据去重;

6、步骤四:将数据进行格式转换;

7、步骤五:将转换成功的数据进行缺省值处理;

8、步骤六:进行编码标准化处理;

9、步骤七:进行黄金数据源判定;

10、步骤八:进行数据整合;

11、步骤九:数据清洗完成。

12、作为优选,所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。

13、作为优选,所述步骤四中,格式转换包含日期格式转换、字符转换数字等。

14、作为优选,所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。

15、作为优选,所述步骤五中,缺省值处理包含日期、金额、长度等。

16、作为优选,所述步骤七中,黄金数据源判定的流程如下;

17、step1:判断黄金数据源是否可以专家评定,若黄金数据源可以专家评定,则专家判定黄金源数据后,黄金数据源判定结束;

18、step2:若黄金数据源不可以专家评定,则要进入下述判定流程;

19、s1、导入要比较的样品数据;

20、s2、统计字段空值率;

21、s3、计算数据完整性指标;

22、s4、抽样检查数据的准确性;

23、s5、计算数据准确性指标;

25、s7、计算数据时效性指标;

26、s8、统计可用记录数;

27、s9、计算数据可用性指标;

28、s10、汇总计算数据质量指标;

29、s11、进行数据源指标得分对比;

30、a.比分超过2:1后,则确定黄金数据源,黄金数据源判定结束;

31、b.比分没有超过2:1后,检验通过源数据统计数据被引用数量;

32、b1.若数量比例超过1:1,则确定黄金数据源,黄金数据源判定结束;

33、b2.若数量比例没有超过1:1,则无黄金数据源,黄金数据源判定结束。

34、作为优选,所述s3中,完整性等于完整记录数除以总记录数后得到的数值再乘以100%。

35、作为优选,所述s5中,准确性等于正确记录数除以总记录数后得到的数值再乘以100%。

36、作为优选,所述s7中,时效性等于及时更新记录数除以总记录数后得到的数值再乘以100%。

37、作为优选,所述s9中,可用性等于可用记录数除以总记录数后得到的数值再乘以100%。

39、本发明的特征及优点将通过实施例结合附图进行详细说明。

1.数据清洗流程方法,其特征在于:包括如下步骤;

2.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤三中,若数据表不存在重复的数据,则直接进行格式转换。

3.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤四中,格式转换包含日期格式转换、字符转换数字等。

4.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤五中,若数据进行格式转换不成功,则对转换不成功的数据赋特殊值,然后再进行缺省值处理。

5.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤五中,缺省值处理包含日期、金额、长度等。

6.如权利要求1所述的数据清洗流程方法,其特征在于:所述步骤七中,黄金数据源判定的流程如下;

7.如权利要求6所述的数据清洗流程方法,其特征在于:所述s3中,完整性等于完整记录数除以总记录数后得到的数值再乘以100%。

8.如权利要求1所述的数据清洗流程方法,其特征在于:所述s5中,准确性等于正确记录数除以总记录数后得到的数值再乘以100%。

9.如权利要求1所述的数据清洗流程方法,其特征在于:所述s7中,时效性等于及时更新记录数除以总记录数后得到的数值再乘以100%。

10.如权利要求1所述的数据清洗流程方法,其特征在于:所述s9中,可用性等于可用记录数除以总记录数后得到的数值再乘以100%。

THE END
1.数据清洗的概念常见问题及实践方法数据已成为企业和组织决策的重要依据,然而,原始数据往往存在各种质量问题,如缺失值、错误值、重复数据等,这些问题严重影响了数据分析的准确性和可靠性。数据清洗作为数据预处理的关键环节,能够有效地解决这些问题,为后续的数据分析和挖掘打下坚实的基础。 今天,让我们一起了解数据清洗的概念、常见问题及实践方法。 https://blog.csdn.net/weixin_44958787/article/details/141850204
2.pythonpython葡萄酒国家分布情况数据分析pyecharts可视化二、设计思路 好的,结合上述代码,我们可以从数据读取、数据清洗和数据处理三个方面详细讲解代码的设计思路和实现过程。 1. 数据读取 数据读取是数据分析的第一步,代码中通过两种方式读取 CSV 文件的数据:使用csv模块和pandas库。 使用csv模块读取数据 import csvfilename = 'winemag-data.csv'with open(filename, https://developer.aliyun.com/article/1581254
3.实施数据分析项目有哪些流程?从数据准备到解决方案全面解析!在数据清洗层,我们对原始数据进行初步处理,移除异常值(例如,观看时长超过24小时或地理位置数据异常的记录)。这一步骤对于确保后续分析的准确性至关重要。 数据汇总层 数据汇总层根据分析需求,将用户行为按照特定主题进行聚合,形成轻量级的聚合指标表。例如,在直播应用项目中,我们可以将用户的登录、订阅、观看、弹幕和送https://www.fanruan.com/bw/bd-sjfxxmss
4.基于Python技术的电商个性化推荐系统的灵感来源python商品推荐数据清洗 数据可视化及分析 结论与建议 分析思路 其实就今天的数据来讲,我们主要做的是探索性分析;首先梳理已有的字段,有标题(提取出品类)、价格、销量、店铺名、发货地。下面来做一下详细的维度拆分以及可视化图形选择: 品类: 品类销量的 TOP 10 有哪些?(表格或者横向条形图) https://blog.51cto.com/u_14152/11729805
5.小浣熊家族:自媒体新手的快速成长指南AI程序员海军分析思路 数据收集 收集各大自媒体平台的用户数据、内容数据、活动数据等 数据来源包括平台后台统计、第三方数据分析工具、问卷调查等 数据清洗 对收集到的数据进行清洗,去除重复和无效数据 确保数据的准确性和一致性 数据分析 使用数据分析工具(如 Python、R、Excel 等)进行数据处理和分析 https://xie.infoq.cn/article/66e2c96a2abe28aa81fd4c129
6.帆软FineBI数据编辑,帮你省下80%浪费在数据处理的时间!②历史步骤可见,让分析思路可回溯,处理过程变透明 用Excel做分析存在一个明显的弊端就是操作步骤不可见,不知道中间做了哪些步骤,如果想查看计算逻辑,只有两个方法:要么CTRL+Z回退,要么点进函数一个一个查看。 FineBI的数据编辑,可以针对历史操作步骤进行追溯、灵活调整历史操作步骤,解决历史操作不可见的问题。对于个人https://www.360doc.cn/mip/1132147943.html
7.Prompt用得好,增长工作下班早1.数据清洗 你是一位资深数据分析师,具备深厚的数据分析技能与行业经验。你擅长应用各种数据分析工具和技术,对数据进行挖掘、整合、分析,现在我有一份销售数据,是jason格式的,帮我把数据处理一下,直接输出表格。 2.找数据分析思路 你是一位XX行业的市场营销分析专家,请根据这份数据集合,给出4个不同方向的分析主题https://www.niaogebiji.com/article-645093-1.html
8.www.ptzfcg.gov.cn/upload/document/20180724/0279275ee54644f69.2投标人应在投标截止时间前按照福建省政府采购网上公开信息系统设定的操作流程将电子投标文件上传至福建省政府采购网上公开信息系统,同时将投标人的CA证书连同密封的纸质投标文件送达招标文件第一章第10条载明的地点,否则投标将被拒绝。 10、开标时间及地点:详见招标公告或更正公告(若有),若不一致,以更正公告(若有)http://www.ptzfcg.gov.cn/upload/document/20180724/0279275ee54644f6adb79e806e1b3734.html
9.图像数据清洗方法.pptx数智创新 变革未来图像数据清洗方法 图像数据清洗简介 数据清洗必要性 常见图像数据问题 数据清洗基本流程 图像预处理技术 图像噪声处理方法 图像标注修正技术 总结与展望Contents Page目录页 图像数据清洗简介图像数据清洗方法 图像数据清洗简介图像数据清洗简介1.图像数据清洗的定义和重要性:图像数据清洗是指通过一系列技术https://max.book118.com/html/2023/1110/7116145134006004.shtm
10.请问机场出租车相关的数据在哪找得到?因此,针对异常数据的清洗是在数据的正式处理分析之前必须做的重要步骤。缺少这一步骤,在后续的处理中很可能产生错误的分析结果。在出租车GPS数据中也不可避免地存在一定的数据异常。这里我们以数据中存在的异常载客状态为例,介绍数据异常的情况以及数据清洗的思路。https://www.yoojia.com/ask/17-11950137789821619087.html