本申请涉及数据处理技术领域,具体而言,涉及一种大数据清洗方法。
背景技术:
在大数据技术领域中,需要处理的数据是海量的,并且,在海量的数据中并不是全部数据都可以被利用,因而,需要对获取的数据进行清洗处理。但是,经发明人研究发现,在现有的数据清洗处理技术中,存在着数据清洗的效果较差的问题。
技术实现要素:
有鉴于此,本申请的目的在于提供一种大数据清洗方法,以改善现有技术中数据清洗的效果较差的问题。
为实现上述目的,本申请实施例采用如下技术方案:
一种大数据清洗方法,应用于大数据清洗设备,所述大数据清洗方法包括:
获得待处理的原始业务数据,其中,所述原始业务数据为基于对目标业务对象进行数据采集得到的数据量大于预设量的业务数据;
对所述原始业务数据进行清洗处理,以筛除所述原始业务数据中的无效数据,得到目标业务数据,其中,所述无效数据为所述原始业务数据中重要程度低于预设程度的业务数据,所述目标业务数据为所述原始业务数据中的部分或全部数据。
在一种可能的实施例中,在上述大数据清洗方法中,所述对所述原始业务数据进行清洗处理,以筛除所述原始业务数据中的无效数据,得到目标业务数据的步骤,包括:
对所述原始业务数据进行去噪处理,以筛除所述原始业务数据中的失真数据,得到第一业务数据,其中,所述失真数据为所述原始业务数据中的错误数据,所述第一业务数据为所述原始业务数据中的部分或全部数据;
对所述第一业务数据进行清洗处理,以筛除所述第一业务数据中的无效数据,得到目标业务数据,其中,所述无效数据为所述第一业务数据中重要程度低于预设程度的业务数据,所述目标业务数据为所述原始业务数据中的部分或全部数据。
在一种可能的实施例中,在上述大数据清洗方法中,所述对所述第一业务数据进行清洗处理,以筛除所述第一业务数据中的无效数据,得到目标业务数据的步骤,包括:
对所述第一业务数据进行内容识别处理,得到对应的内容识别结果;
基于所述内容识别结果对所述第一业务数据的各个数据部分进行重要程度确定处理,得到每一个所述数据部分对应的重要程度信息;
基于每一个所述数据部分对应的重要程度信息,确定每一个所述数据部分是否属于无效数据;
将不属于无效数据的所述数据部分确定为目标业务数据。
在一种可能的实施例中,在上述大数据清洗方法中,所述基于所述内容识别结果对所述第一业务数据的各个数据部分进行重要程度确定处理,得到每一个所述数据部分对应的重要程度信息的步骤,包括:
获得预先构建的内容-重要程度对应关系,其中,所述内容-重要程度对应关系基于所述大数据清洗设备响应用户进行的第一配置操作生成;
基于所述内容识别结果和所述内容-重要程度对应关系,确定所述第一业务数据的各个数据部分的重要程度信息。
针对所述第一业务数据中的每一个数据部分,判断该数据部分是否存在预设标记信息,其中,所述预设标记信息基于响应用户操作生成;
将存在所述预设标记信息的每一个数据部分的重要程度信息确定为具有第一重要程度信息,并将不存在所述预设标记信息的每一个数据部分的重要程度信息确定为具有第二重要程度信息,其中,所述第一重要程度信息用于表征对应的数据部分不属于无效数据,所述第二重要程度信息用于表征对应的数据部分属于无效数据。
在一种可能的实施例中,在上述大数据清洗方法中,所述基于每一个所述数据部分对应的重要程度信息,确定每一个所述数据部分是否属于无效数据的步骤,包括:
获取预先配置的重要程度阈值信息,其中,所述重要程度阈值信息基于所述大数据清洗设备响应用户进行的第二配置操作生成;
判断每一个所述数据部分对应的重要程度信息是否小于所述重要程度阈值信息;
将小于所述重要程度阈值信息的每一个重要程度信息对应的所述数据部分确定为无效数据,并将大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分确定为有效数据。
统计大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分的数据量;
若所述数据量大于或等于预先确定的目标数据量,则将小于所述重要程度阈值信息的每一个重要程度信息对应的所述数据部分确定为无效数据,并将大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分确定为有效数据;
若所述数据量小于所述目标数据量,则将每一个所述数据部分确定为有效数据。
响应用户对所述第一业务数据进行的标识处理,得到对应的标识结果;
基于所述标识结果对所述第一业务数据的各个数据部分进行重要程度确定处理,得到每一个所述数据部分对应的重要程度信息;
响应用户对所述第一业务数据的各个数据部分进行的重要程度标识处理,得到每一个所述数据部分对应的重要程度信息;
在一种可能的实施例中,在上述大数据清洗方法中,所述对所述原始业务数据进行去噪处理,以筛除所述原始业务数据中的失真数据,得到第一业务数据的步骤,包括:
对获得的原始业务数据进行数据分割处理,得到多个原始业务数据片段,其中,所述原始业务数据为基于对目标业务对象进行数据采集得到的数据量大于预设量的业务数据;
对所述多个原始业务数据片段解析处理,以确定所述多个原始业务数据片段中是否存在属于失真数据的目标业务数据片段,其中,所述失真数据为所述原始业务数据中的错误数据;
若所述多个原始业务数据片段中存在所述目标业务数据片段,则将所述多个原始业务数据片段中所述目标业务数据片段以外的每一个原始业务数据片段作为去噪后的第一业务数据。
本申请提供的一种大数据清洗方法,通过将获取的原始业务数据中重要程度低于预设程度的无效数据予以筛除,使得可以得到重要程度较高的目标业务数据。如此,通过筛除相对不重要的无效数据、保留相对重要的有效数据,可以使得数据清洗的效果较佳,从而改善现有技术中数据清洗的效果较差的问题。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本申请实施例提供的大数据清洗设备的结构框图。
图2为本申请实施例提供的大数据清洗方法的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本申请实施例提供了一种大数据清洗设备。其中,所述大数据清洗设备可以包括存储器和处理器。
详细地,所述存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器中可以存储有至少一个可以以软件或固件(firmware)的形式,存在的软件功能模块(计算机程序)。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序,从而实现本申请实施例(如后文所述)提供的大数据清洗方法。
可选地,所述存储器可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。所述处理器可以是一种通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)、片上系统(systemonchip,soc)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
并且,图1所示的结构仅为示意,所述大数据清洗设备还可包括比图1中所示更多或者更少的组件,或具有与图1所示不同的配置,例如,可以包括用于与其它设备进行信息交互的通信单元。
其中,在一种可以替代的示例中,所述大数据清洗设备可以是一种具备数据处理能力的服务器。
结合图2,本申请实施例还提供一种大数据清洗方法,可应用于上述大数据清洗设备。其中,该大数据清洗方法有关的流程所定义的方法步骤,可以由所述大数据清洗设备实现。
下面将对图2所示的具体流程,进行详细阐述。
步骤s110,获得待处理的原始业务数据。
在本实施例中,所述大数据清洗设备可以先获得待处理的原始业务数据,例如,可以从一些数据库中获取存储的原始业务数据。
其中,所述原始业务数据为基于对目标业务对象进行数据采集得到的数据量大于预设量的业务数据。例如,所述目标业务对象可以是基于互联网形成的互联网交易行为,所述原始业务数据可以是基于所述互联网交易行为形成的互联网交易记录数据。
步骤s120,对所述原始业务数据进行清洗处理,以筛除所述原始业务数据中的无效数据,得到目标业务数据。
在本实施例中,在基于步骤s110获得所述原始业务数据之后,所述大数据清洗设备可以对所述原始业务数据进行清洗处理,如此,可以筛选所述原始业务数据中的无效数据,从而得到有效的目标业务数据。
其中,所述无效数据为所述原始业务数据中重要程度低于预设程度的业务数据,所述目标业务数据为所述原始业务数据中的部分或全部数据。
基于上述方法,通过将获取的原始业务数据中重要程度低于预设程度的无效数据予以筛除,使得可以得到重要程度较高的目标业务数据。如此,通过筛除相对不重要的无效数据、保留相对重要的有效数据,可以使得数据清洗的效果较佳,从而改善现有技术中数据清洗的效果较差的问题。
在上述示例中,对于步骤s120需要说明的是,对所述原始业务数据进行清洗处理的具体方式不受限制,可以根据实际应用需求进行选择。
例如,在一种可以替代的示例中,可以基于以下步骤对所述原始业务数据进行清洗处理,从而得到所述目标业务数据:
首先,可以对所述原始业务数据进行去噪处理,以筛除所述原始业务数据中的失真数据,得到第一业务数据,其中,所述失真数据为所述原始业务数据中的错误数据,所述第一业务数据为所述原始业务数据中的部分或全部数据;其次,可以对所述第一业务数据进行清洗处理,以筛除所述第一业务数据中的无效数据,得到目标业务数据,其中,所述无效数据为所述第一业务数据中重要程度低于预设程度的业务数据,所述目标业务数据为所述原始业务数据中的部分或全部数据。
可以理解的是,在一种可以替代的示例中,对所述原始业务数据进行去噪处理的具体方式可以包括以下三步,具体内容如下。
第一步,对获得的原始业务数据进行数据分割处理,得到多个原始业务数据片段。在本实施例中,所述大数据去噪处理设备可以对获得的原始业务数据进行数据分割处理,如此,可以得到多个原始业务数据片段。其中,所述原始业务数据为基于对目标业务对象进行数据采集得到的数据量大于预设量的业务数据。例如,所述目标业务对象可以是基于互联网形成的互联网交易行为,所述原始业务数据可以是基于所述互联网交易行为形成的互联网交易记录数据。
第二步,对所述多个原始业务数据片段解析处理,以确定所述多个原始业务数据片段中是否存在属于失真数据的目标业务数据片段。在本实施例中,在得到所述多个原始业务数据片段之后,所述大数据去噪处理设备可以对所述多个原始业务数据片段解析处理,以确定所述多个原始业务数据片段中是否存在属于失真数据的目标业务数据片段。其中,所述失真数据为所述原始业务数据中的错误数据。例如,所述失真数据可以表征,上述的互联网交易行为在完成之后又被撤销,如购买商品之后又选择取消或退货等,或者,所述失真数据可以表征,数据存储过程中因宕机、篡改等原因而发送数据出错等。并且,若所述多个原始业务数据片段中存在所述目标业务数据片段,可以执行第三步。
第三步,将所述多个原始业务数据片段中所述目标业务数据片段以外的每一个原始业务数据片段作为去噪后的第一业务数据。在本实施例中,在确定所述多个原始业务数据片段中存在所述目标业务数据片段之后,所述大数据去噪处理设备可以将所述多个原始业务数据片段中所述目标业务数据片段以外的每一个原始业务数据片段作为去噪后的第一业务数据。
基于上述步骤,通过将原始业务数据分割未多个原始业务数据片段,并确定是否存在属于失真数据的目标业务数据片段,然后,将目标业务数据片段以外的每一个原始业务数据片段作为去噪后的第一业务数据。如此,可以将原始业务数据中的错误数据予以有效排除,使得得到的第一业务数据中的数据真实性较高,从而保证去噪效果较佳。
可以理解的是,在一种可以替代的示例中,可以基于以下步骤以对所述原始业务数据进行数据分割处理:
首先,从所述大数据去噪处理设备通信连接的目标数据库(可以理解的是,所述目标数据库可以不属于与所述大数据去噪处理设备通信连接的其它服务器)中获得原始业务数据,其中,所述原始业务数据基于对所述目标业务对象进行数据采集得到之后,通过对应的数据采集设备发送给所述目标数据库存储;
其次,获取预先确定的目标数据分割规则,其中,所述目标数据分割规则基于所述大数据去噪处理设备响应用户进行的配置操作生成;
然后,基于所述目标数据分割规则对所述原始业务数据进行分割处理,得到多个原始业务数据片段,其中,所述多个原始业务数据片段按照一定的先后顺序组合构成所述原始业务数据。
可以理解的是,在一种可以替代的示例中,可以基于以下步骤以获取所述目标数据分割规则:
首先,对所述原始业务数据进行内容识别处理(例如,可以基于现有的一些文本识别模型或预先训练得到的神经网络模型进行识别处理),得到所述原始业务数据对应的内容识别结果,其中,所述内容识别结果用于表征所述原始业务数据的数据内容所属的类型信息(例如,所述类型信息可以包括涉及交易金额的信息和不涉及交易金额的信息等);
其次,基于所述内容识别结果在预先构建的多种数据分割规则中确定出一种分割规则,作为所述内容识别结果对应的目标数据分割规则,其中,每一种所述数据分割规则基于所述大数据去噪处理设备响应用户进行的配置操作生成,每一种所述数据分割规则用于将所述原始业务数据分割为不同数量的多个原始业务数据片段,所述目标数据分割规则用于将所述原始业务数据分割为对应数量个原始业务数据片段。
可以理解的是,在一种可以替代的示例中,可以基于以下步骤以在多种数据分割规则中确定出目标数据分割规则:
首先,基于所述内容识别结果和预先构建的内容-重要度对应关系,确定所述原始业务数据的数据内容所属的类型信息对应的目标重要度信息,其中,所述内容-重要度对应关系基于所述大数据去噪处理设备响应用户进行的配置操作生成(例如,涉及交易金额的信息对应的重要程度可以高于不涉及交易金额的信息对应的重要程度);
可以理解的是,在一种可以替代的示例中,可以基于以下步骤以对所述多个原始业务数据片段解析处理:
第一步,针对所述多个原始业务数据片段中的每一个所述原始业务数据片段,对该原始业务数据片段进行内容识别处理(如前所述),得到该原始业务数据片段对应的内容表征信息,其中,所述内容表征信息用于表征对应的原始业务数据片段的数据内容(如提取其中的关键词);
第三步,将所述至少一个业务数据片段集合中包括的原始业务数据片段的数量大于或等于2的每一个业务数据片段集合,作为目标业务数据片段集合;
第四步,针对每一个所述目标业务数据片段集合,将该目标业务数据片段集合中的各所述原始业务数据片段进行对比分析,以确定该目标业务数据片段集合中是否存在属于失真数据的目标业务数据片段。
可以理解的是,在一种可以替代的示例中,可以基于以下步骤以将各所述原始业务数据片段进行对比分析:
首先,针对每一个所述目标业务数据片段集合,基于对所述原始业务数据片段进行内容识别处理的结果确定该目标业务数据片段集合中各所述原始业务数据片段的数据类型,其中,所述数据类型包括量化型数据和非量化型数据,所述非量化型数据包括具有感情色彩的数据;
其次,针对每一个所述目标业务数据片段集合,基于该目标业务数据片段集合对应的数据类型确定该目标业务数据片段集合对应的对比分析规则,不同数据类型的目标业务数据片段集合对应的对比分析规则不同;
然后,针对每一个所述目标业务数据片段集合,基于该目标业务数据片段集合对应的对比分析规则对该目标业务数据片段集合包括的各所述原始业务数据片段进行对比分析,以确定该目标业务数据片段集合中是否存在属于失真数据的目标业务数据片段。
可以理解的是,在一种可以替代的示例中,可以基于以下步骤以通过对应的对比分析规则对各所述原始业务数据片段进行对比分析:
第一步,针对每一个对应的数据类型为所述量化型数据的目标业务数据片段集合,基于该目标业务数据片段集合中各所述原始业务数据片段的量化数据值进行均值计算得到对应的量化均值,并基于该量化均值和各所述原始业务数据片段的量化数据值进行离散计算得到对应的量化数据离散程度值(可以理解的是,针对非量化型数据,如具有感情色彩的数据,可以先解析出各所述原始业务数据片段对应的感情色彩的变化趋势信息,如感情色彩一直未变或感情色彩从贬义逐渐变为褒义等,然后,基于再筛选出不满足该变化趋势信息的数据作为失真数据);
第二步,判断所述量化数据离散程度值是否大于预先确定的量化数据离散程度阈值,其中,所述量化数据离散程度阈值基于所述大数据去噪处理设备响应用户进行的配置操作生成;
第三步,若所述量化数据离散程度值大于所述量化数据离散程度阈值,则将该量化数据离散程度值对应的目标业务数据片段集合确定为不包括属于失真数据的目标业务数据片段;
第四步,若所述量化数据离散程度值小于或等于所述量化数据离散程度阈值,则计算该量化数据离散程度值对应的目标业务数据片段集合中每一个所述原始业务数据片段的量化数据值与所述量化均值之间的差值;
第五步,判断所述差值与预先确定的比较阈值之间的大小关系(可以理解的是,该比较阈值可以基于用户根据实际应用场景进行的配置生成);
第六步,若所述差值大于所述比较阈值,则将所述差值对应的原始业务数据片段确定为属于失真数据的目标业务数据片段;
第七步,若所述差值小于或等于所述比较阈值,则不将所述差值对应的原始业务数据片段确定为属于失真数据的目标业务数据片段。
可以理解的是,在另一种可以替代的示例中,也可以基于以下步骤以将各所述原始业务数据片段进行对比分析:
第一步,针对每一个所述目标业务数据片段集合,基于该目标业务数据片段集合中各所述原始业务数据片段对应的内容表征信息,确定该目标业务数据片段集合对应的历史业务数据片段集合,其中,所述历史业务数据片段集合为在历史上对其它原始业务数据进行解析处理而确定的包括失真数据的业务数据片段集合,且所述历史业务数据片段集合与对应的目标业务数据片段集合的内容表征信息相同;
第二步,针对每一个所述历史业务数据片段集合,基于该历史业务数据片段集合包括的各业务数据片段在所述其它原始业务数据中的相对位置关系,对该历史业务数据片段集合包括的各业务数据片段进行排序处理,得到该历史业务数据片段集合对应的历史业务数据片段序列;
第三步,针对每一个所述目标业务数据片段集合,获取该目标业务数据片段集合包括的原始业务数据片段的片段数量;
第四步,针对每一个所述目标业务数据片段集合,在该目标业务数据片段集合对应的历史业务数据片段序列中确定至少一个历史业务数据片段子序列,其中,每一个所述历史业务数据片段子序列包括的业务数据片段的数量为所述目标业务数据片段集合对应的片段数量,且每一个所述历史业务数据片段子序列包括属于失真数据的业务数据片段;
第五步,针对每一个所述目标业务数据片段集合,计算该目标业务数据片段集合对应的有序集合(即将该目标业务数据片段集合中各原始业务数据片段在所述原始业务数据中的相对位置关系进行排序,得到该有序集合)与对应的所述至少一个历史业务数据片段子序列之间的序列相似度(该序列相似度可以基于现有的序列相似度计算方法计算得到,在此不再一一赘述);
第六步,将序列相似度满足预设的相似度阈值(可以理解的是,该相似度阈值可以基于用户根据实际应用场景进行的配置操作生成)的每一个目标业务数据片段集合,确定为存在属于失真数据的目标业务数据片段的目标业务数据片段集合,其中,所述目标业务数据片段基于对应的历史业务数据片段集合中属于失真数据的业务数据片段的位置信息确定。
可以理解的是,在一种可以替代的示例中,可以基于以下步骤以得到去噪后的第一业务数据:
首先,若所述多个原始业务数据片段中存在所述目标业务数据片段,则确定所述多个原始业务数据片段中所述目标业务数据片段以外的每一个原始业务数据片段在所述原始业务数据中的相对位置关系;
其次,基于所述相对位置关系,将所述多个原始业务数据片段中所述目标业务数据片段以外的每一个原始业务数据片段进行组合,得到所述原始业务数据去噪后的第一业务数据。
可以理解的是,在一种可以替代的示例中,若确定所述多个原始业务数据片段中不存在所述目标业务数据片段,可以将所述多个原始业务数据片段都作为去噪后的第一业务数据,即直接将所述原始业务数据作为去噪后的第一业务数据。
可以理解的是,在一种可以替代的示例中,对所述第一业务数据进行清洗处理的具体方式可以包括以下步骤:
第一步,对所述第一业务数据进行内容识别处理(例如,可以基于现有技术中的一些文本识别模型进行识别处理,该文本识别模型可以是预先基于样本数据训练得到的神经网络模型),得到对应的内容识别结果;第二步,基于所述内容识别结果对所述第一业务数据的各个数据部分进行重要程度确定处理,得到每一个所述数据部分对应的重要程度信息;第三步,基于每一个所述数据部分对应的重要程度信息,确定每一个所述数据部分是否属于无效数据;第四步,将不属于无效数据的所述数据部分确定为目标业务数据。
可以理解的是,在另一种可以替代的示例中,对所述第一业务数据进行清洗处理的具体方式也可以包括以下步骤:
第一步,响应用户对所述第一业务数据进行的标识处理,得到对应的标识结果(也就是说,可以通过相应的用户对所述第一业务数据的各个数据部分进行标识,以得到对应的标识结果,该标识结果可以是指对应的数据部分表征的数据内容,如交易行为的主体等);第二步,基于所述标识结果对所述第一业务数据的各个数据部分进行重要程度确定处理,得到每一个所述数据部分对应的重要程度信息;第三步,基于每一个所述数据部分对应的重要程度信息,确定每一个所述数据部分是否属于无效数据;第四步,将不属于无效数据的所述数据部分确定为目标业务数据。
可以理解的是,在其它可以替代的示例中,对所述第一业务数据进行清洗处理的具体方式也可以包括以下步骤:
第一步,响应用户对所述第一业务数据的各个数据部分进行的重要程度标识处理,得到每一个所述数据部分对应的重要程度信息(也就是说,可以通过相应的用户对所述第一业务数据的各个数据部分进行标识,以得到各个数据部分的重要程度信息);第二步,基于每一个所述数据部分对应的重要程度信息,确定每一个所述数据部分是否属于无效数据;第三步,将不属于无效数据的所述数据部分确定为目标业务数据。
可以理解的是,在上述的第一种可以替代的示例中,在一种可能的示例中,可以基于以下步骤进行重要程度确定处理:
首先,获得预先构建的内容-重要程度对应关系,其中,所述内容-重要程度对应关系基于所述大数据清洗设备响应用户进行的第一配置操作生成;其次,基于所述内容识别结果和所述内容-重要程度对应关系,确定所述第一业务数据的各个数据部分的重要程度信息。
可以理解的是,在上述的第一种可以替代的示例中,在另一种可能的示例中,可以基于以下步骤进行重要程度确定处理:
首先,针对所述第一业务数据中的每一个数据部分,判断该数据部分是否存在预设标记信息,其中,所述预设标记信息基于响应用户操作生成;其次,将存在所述预设标记信息的每一个数据部分的重要程度信息确定为具有第一重要程度信息,并将不存在所述预设标记信息的每一个数据部分的重要程度信息确定为具有第二重要程度信息,其中,所述第一重要程度信息用于表征对应的数据部分不属于无效数据,所述第二重要程度信息用于表征对应的数据部分属于无效数据。
可以理解的是,在上述的第一种可以替代的示例中,在一种可能的示例中,可以基于以下步骤确定每一个所述数据部分是否属于无效数据:
第一步,获取预先配置的重要程度阈值信息,其中,所述重要程度阈值信息基于所述大数据清洗设备响应用户进行的第二配置操作生成;第二步,判断每一个所述数据部分对应的重要程度信息是否小于所述重要程度阈值信息;第三步,将小于所述重要程度阈值信息的每一个重要程度信息对应的所述数据部分确定为无效数据,并将大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分确定为有效数据。
可以理解的是,在上述的第一种可以替代的示例中,在另一种可能的示例中,可以基于以下步骤确定每一个所述数据部分是否属于无效数据:
第一步,获取预先配置的重要程度阈值信息,其中,所述重要程度阈值信息基于所述大数据清洗设备响应用户进行的第二配置操作生成;第二步,判断每一个所述数据部分对应的重要程度信息是否小于所述重要程度阈值信息;第三步,统计大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分的数据量;第四步,若所述数据量大于或等于预先确定的目标数据量(所述目标数据量可以基于所述大数据清洗设备响应用户进行的第三配置操作生成),则将小于所述重要程度阈值信息的每一个重要程度信息对应的所述数据部分确定为无效数据,并将大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分确定为有效数据;第五步,若所述数据量小于所述目标数据量,则将每一个所述数据部分确定为有效数据。
综上所述,本申请提供的一种大数据清洗方法,通过将获取的原始业务数据中重要程度低于预设程度的无效数据予以筛除,使得可以得到重要程度较高的目标业务数据。如此,通过筛除相对不重要的无效数据、保留相对重要的有效数据,可以使得数据清洗的效果较佳,从而改善现有技术中数据清洗的效果较差的问题。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。