一种大数据清洗方法与流程

本申请涉及数据处理技术领域,具体而言,涉及一种大数据清洗方法。

背景技术:

在大数据技术领域中,需要处理的数据是海量的,并且,在海量的数据中并不是全部数据都可以被利用,因而,需要对获取的数据进行清洗处理。但是,经发明人研究发现,在现有的数据清洗处理技术中,存在着数据清洗的效果较差的问题。

技术实现要素:

有鉴于此,本申请的目的在于提供一种大数据清洗方法,以改善现有技术中数据清洗的效果较差的问题。

为实现上述目的,本申请实施例采用如下技术方案:

一种大数据清洗方法,应用于大数据清洗设备,所述大数据清洗方法包括:

获得待处理的原始业务数据,其中,所述原始业务数据为基于对目标业务对象进行数据采集得到的数据量大于预设量的业务数据;

对所述原始业务数据进行清洗处理,以筛除所述原始业务数据中的无效数据,得到目标业务数据,其中,所述无效数据为所述原始业务数据中重要程度低于预设程度的业务数据,所述目标业务数据为所述原始业务数据中的部分或全部数据。

在一种可能的实施例中,在上述大数据清洗方法中,所述对所述原始业务数据进行清洗处理,以筛除所述原始业务数据中的无效数据,得到目标业务数据的步骤,包括:

对所述原始业务数据进行去噪处理,以筛除所述原始业务数据中的失真数据,得到第一业务数据,其中,所述失真数据为所述原始业务数据中的错误数据,所述第一业务数据为所述原始业务数据中的部分或全部数据;

对所述第一业务数据进行清洗处理,以筛除所述第一业务数据中的无效数据,得到目标业务数据,其中,所述无效数据为所述第一业务数据中重要程度低于预设程度的业务数据,所述目标业务数据为所述原始业务数据中的部分或全部数据。

在一种可能的实施例中,在上述大数据清洗方法中,所述对所述第一业务数据进行清洗处理,以筛除所述第一业务数据中的无效数据,得到目标业务数据的步骤,包括:

对所述第一业务数据进行内容识别处理,得到对应的内容识别结果;

基于所述内容识别结果对所述第一业务数据的各个数据部分进行重要程度确定处理,得到每一个所述数据部分对应的重要程度信息;

基于每一个所述数据部分对应的重要程度信息,确定每一个所述数据部分是否属于无效数据;

将不属于无效数据的所述数据部分确定为目标业务数据。

在一种可能的实施例中,在上述大数据清洗方法中,所述基于所述内容识别结果对所述第一业务数据的各个数据部分进行重要程度确定处理,得到每一个所述数据部分对应的重要程度信息的步骤,包括:

获得预先构建的内容-重要程度对应关系,其中,所述内容-重要程度对应关系基于所述大数据清洗设备响应用户进行的第一配置操作生成;

基于所述内容识别结果和所述内容-重要程度对应关系,确定所述第一业务数据的各个数据部分的重要程度信息。

针对所述第一业务数据中的每一个数据部分,判断该数据部分是否存在预设标记信息,其中,所述预设标记信息基于响应用户操作生成;

将存在所述预设标记信息的每一个数据部分的重要程度信息确定为具有第一重要程度信息,并将不存在所述预设标记信息的每一个数据部分的重要程度信息确定为具有第二重要程度信息,其中,所述第一重要程度信息用于表征对应的数据部分不属于无效数据,所述第二重要程度信息用于表征对应的数据部分属于无效数据。

在一种可能的实施例中,在上述大数据清洗方法中,所述基于每一个所述数据部分对应的重要程度信息,确定每一个所述数据部分是否属于无效数据的步骤,包括:

获取预先配置的重要程度阈值信息,其中,所述重要程度阈值信息基于所述大数据清洗设备响应用户进行的第二配置操作生成;

判断每一个所述数据部分对应的重要程度信息是否小于所述重要程度阈值信息;

将小于所述重要程度阈值信息的每一个重要程度信息对应的所述数据部分确定为无效数据,并将大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分确定为有效数据。

统计大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分的数据量;

若所述数据量大于或等于预先确定的目标数据量,则将小于所述重要程度阈值信息的每一个重要程度信息对应的所述数据部分确定为无效数据,并将大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分确定为有效数据;

若所述数据量小于所述目标数据量,则将每一个所述数据部分确定为有效数据。

响应用户对所述第一业务数据进行的标识处理,得到对应的标识结果;

基于所述标识结果对所述第一业务数据的各个数据部分进行重要程度确定处理,得到每一个所述数据部分对应的重要程度信息;

响应用户对所述第一业务数据的各个数据部分进行的重要程度标识处理,得到每一个所述数据部分对应的重要程度信息;

在一种可能的实施例中,在上述大数据清洗方法中,所述对所述原始业务数据进行去噪处理,以筛除所述原始业务数据中的失真数据,得到第一业务数据的步骤,包括:

对获得的原始业务数据进行数据分割处理,得到多个原始业务数据片段,其中,所述原始业务数据为基于对目标业务对象进行数据采集得到的数据量大于预设量的业务数据;

对所述多个原始业务数据片段解析处理,以确定所述多个原始业务数据片段中是否存在属于失真数据的目标业务数据片段,其中,所述失真数据为所述原始业务数据中的错误数据;

若所述多个原始业务数据片段中存在所述目标业务数据片段,则将所述多个原始业务数据片段中所述目标业务数据片段以外的每一个原始业务数据片段作为去噪后的第一业务数据。

本申请提供的一种大数据清洗方法,通过将获取的原始业务数据中重要程度低于预设程度的无效数据予以筛除,使得可以得到重要程度较高的目标业务数据。如此,通过筛除相对不重要的无效数据、保留相对重要的有效数据,可以使得数据清洗的效果较佳,从而改善现有技术中数据清洗的效果较差的问题。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

图1为本申请实施例提供的大数据清洗设备的结构框图。

图2为本申请实施例提供的大数据清洗方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本申请的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

如图1所示,本申请实施例提供了一种大数据清洗设备。其中,所述大数据清洗设备可以包括存储器和处理器。

详细地,所述存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器中可以存储有至少一个可以以软件或固件(firmware)的形式,存在的软件功能模块(计算机程序)。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序,从而实现本申请实施例(如后文所述)提供的大数据清洗方法。

可选地,所述存储器可以是,但不限于,随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。所述处理器可以是一种通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)、片上系统(systemonchip,soc)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

并且,图1所示的结构仅为示意,所述大数据清洗设备还可包括比图1中所示更多或者更少的组件,或具有与图1所示不同的配置,例如,可以包括用于与其它设备进行信息交互的通信单元。

其中,在一种可以替代的示例中,所述大数据清洗设备可以是一种具备数据处理能力的服务器。

结合图2,本申请实施例还提供一种大数据清洗方法,可应用于上述大数据清洗设备。其中,该大数据清洗方法有关的流程所定义的方法步骤,可以由所述大数据清洗设备实现。

下面将对图2所示的具体流程,进行详细阐述。

步骤s110,获得待处理的原始业务数据。

在本实施例中,所述大数据清洗设备可以先获得待处理的原始业务数据,例如,可以从一些数据库中获取存储的原始业务数据。

其中,所述原始业务数据为基于对目标业务对象进行数据采集得到的数据量大于预设量的业务数据。例如,所述目标业务对象可以是基于互联网形成的互联网交易行为,所述原始业务数据可以是基于所述互联网交易行为形成的互联网交易记录数据。

步骤s120,对所述原始业务数据进行清洗处理,以筛除所述原始业务数据中的无效数据,得到目标业务数据。

在本实施例中,在基于步骤s110获得所述原始业务数据之后,所述大数据清洗设备可以对所述原始业务数据进行清洗处理,如此,可以筛选所述原始业务数据中的无效数据,从而得到有效的目标业务数据。

其中,所述无效数据为所述原始业务数据中重要程度低于预设程度的业务数据,所述目标业务数据为所述原始业务数据中的部分或全部数据。

基于上述方法,通过将获取的原始业务数据中重要程度低于预设程度的无效数据予以筛除,使得可以得到重要程度较高的目标业务数据。如此,通过筛除相对不重要的无效数据、保留相对重要的有效数据,可以使得数据清洗的效果较佳,从而改善现有技术中数据清洗的效果较差的问题。

在上述示例中,对于步骤s120需要说明的是,对所述原始业务数据进行清洗处理的具体方式不受限制,可以根据实际应用需求进行选择。

例如,在一种可以替代的示例中,可以基于以下步骤对所述原始业务数据进行清洗处理,从而得到所述目标业务数据:

首先,可以对所述原始业务数据进行去噪处理,以筛除所述原始业务数据中的失真数据,得到第一业务数据,其中,所述失真数据为所述原始业务数据中的错误数据,所述第一业务数据为所述原始业务数据中的部分或全部数据;其次,可以对所述第一业务数据进行清洗处理,以筛除所述第一业务数据中的无效数据,得到目标业务数据,其中,所述无效数据为所述第一业务数据中重要程度低于预设程度的业务数据,所述目标业务数据为所述原始业务数据中的部分或全部数据。

可以理解的是,在一种可以替代的示例中,对所述原始业务数据进行去噪处理的具体方式可以包括以下三步,具体内容如下。

第一步,对获得的原始业务数据进行数据分割处理,得到多个原始业务数据片段。在本实施例中,所述大数据去噪处理设备可以对获得的原始业务数据进行数据分割处理,如此,可以得到多个原始业务数据片段。其中,所述原始业务数据为基于对目标业务对象进行数据采集得到的数据量大于预设量的业务数据。例如,所述目标业务对象可以是基于互联网形成的互联网交易行为,所述原始业务数据可以是基于所述互联网交易行为形成的互联网交易记录数据。

第二步,对所述多个原始业务数据片段解析处理,以确定所述多个原始业务数据片段中是否存在属于失真数据的目标业务数据片段。在本实施例中,在得到所述多个原始业务数据片段之后,所述大数据去噪处理设备可以对所述多个原始业务数据片段解析处理,以确定所述多个原始业务数据片段中是否存在属于失真数据的目标业务数据片段。其中,所述失真数据为所述原始业务数据中的错误数据。例如,所述失真数据可以表征,上述的互联网交易行为在完成之后又被撤销,如购买商品之后又选择取消或退货等,或者,所述失真数据可以表征,数据存储过程中因宕机、篡改等原因而发送数据出错等。并且,若所述多个原始业务数据片段中存在所述目标业务数据片段,可以执行第三步。

第三步,将所述多个原始业务数据片段中所述目标业务数据片段以外的每一个原始业务数据片段作为去噪后的第一业务数据。在本实施例中,在确定所述多个原始业务数据片段中存在所述目标业务数据片段之后,所述大数据去噪处理设备可以将所述多个原始业务数据片段中所述目标业务数据片段以外的每一个原始业务数据片段作为去噪后的第一业务数据。

基于上述步骤,通过将原始业务数据分割未多个原始业务数据片段,并确定是否存在属于失真数据的目标业务数据片段,然后,将目标业务数据片段以外的每一个原始业务数据片段作为去噪后的第一业务数据。如此,可以将原始业务数据中的错误数据予以有效排除,使得得到的第一业务数据中的数据真实性较高,从而保证去噪效果较佳。

可以理解的是,在一种可以替代的示例中,可以基于以下步骤以对所述原始业务数据进行数据分割处理:

首先,从所述大数据去噪处理设备通信连接的目标数据库(可以理解的是,所述目标数据库可以不属于与所述大数据去噪处理设备通信连接的其它服务器)中获得原始业务数据,其中,所述原始业务数据基于对所述目标业务对象进行数据采集得到之后,通过对应的数据采集设备发送给所述目标数据库存储;

其次,获取预先确定的目标数据分割规则,其中,所述目标数据分割规则基于所述大数据去噪处理设备响应用户进行的配置操作生成;

然后,基于所述目标数据分割规则对所述原始业务数据进行分割处理,得到多个原始业务数据片段,其中,所述多个原始业务数据片段按照一定的先后顺序组合构成所述原始业务数据。

可以理解的是,在一种可以替代的示例中,可以基于以下步骤以获取所述目标数据分割规则:

首先,对所述原始业务数据进行内容识别处理(例如,可以基于现有的一些文本识别模型或预先训练得到的神经网络模型进行识别处理),得到所述原始业务数据对应的内容识别结果,其中,所述内容识别结果用于表征所述原始业务数据的数据内容所属的类型信息(例如,所述类型信息可以包括涉及交易金额的信息和不涉及交易金额的信息等);

其次,基于所述内容识别结果在预先构建的多种数据分割规则中确定出一种分割规则,作为所述内容识别结果对应的目标数据分割规则,其中,每一种所述数据分割规则基于所述大数据去噪处理设备响应用户进行的配置操作生成,每一种所述数据分割规则用于将所述原始业务数据分割为不同数量的多个原始业务数据片段,所述目标数据分割规则用于将所述原始业务数据分割为对应数量个原始业务数据片段。

可以理解的是,在一种可以替代的示例中,可以基于以下步骤以在多种数据分割规则中确定出目标数据分割规则:

首先,基于所述内容识别结果和预先构建的内容-重要度对应关系,确定所述原始业务数据的数据内容所属的类型信息对应的目标重要度信息,其中,所述内容-重要度对应关系基于所述大数据去噪处理设备响应用户进行的配置操作生成(例如,涉及交易金额的信息对应的重要程度可以高于不涉及交易金额的信息对应的重要程度);

可以理解的是,在一种可以替代的示例中,可以基于以下步骤以对所述多个原始业务数据片段解析处理:

第一步,针对所述多个原始业务数据片段中的每一个所述原始业务数据片段,对该原始业务数据片段进行内容识别处理(如前所述),得到该原始业务数据片段对应的内容表征信息,其中,所述内容表征信息用于表征对应的原始业务数据片段的数据内容(如提取其中的关键词);

第三步,将所述至少一个业务数据片段集合中包括的原始业务数据片段的数量大于或等于2的每一个业务数据片段集合,作为目标业务数据片段集合;

第四步,针对每一个所述目标业务数据片段集合,将该目标业务数据片段集合中的各所述原始业务数据片段进行对比分析,以确定该目标业务数据片段集合中是否存在属于失真数据的目标业务数据片段。

可以理解的是,在一种可以替代的示例中,可以基于以下步骤以将各所述原始业务数据片段进行对比分析:

首先,针对每一个所述目标业务数据片段集合,基于对所述原始业务数据片段进行内容识别处理的结果确定该目标业务数据片段集合中各所述原始业务数据片段的数据类型,其中,所述数据类型包括量化型数据和非量化型数据,所述非量化型数据包括具有感情色彩的数据;

其次,针对每一个所述目标业务数据片段集合,基于该目标业务数据片段集合对应的数据类型确定该目标业务数据片段集合对应的对比分析规则,不同数据类型的目标业务数据片段集合对应的对比分析规则不同;

然后,针对每一个所述目标业务数据片段集合,基于该目标业务数据片段集合对应的对比分析规则对该目标业务数据片段集合包括的各所述原始业务数据片段进行对比分析,以确定该目标业务数据片段集合中是否存在属于失真数据的目标业务数据片段。

可以理解的是,在一种可以替代的示例中,可以基于以下步骤以通过对应的对比分析规则对各所述原始业务数据片段进行对比分析:

第一步,针对每一个对应的数据类型为所述量化型数据的目标业务数据片段集合,基于该目标业务数据片段集合中各所述原始业务数据片段的量化数据值进行均值计算得到对应的量化均值,并基于该量化均值和各所述原始业务数据片段的量化数据值进行离散计算得到对应的量化数据离散程度值(可以理解的是,针对非量化型数据,如具有感情色彩的数据,可以先解析出各所述原始业务数据片段对应的感情色彩的变化趋势信息,如感情色彩一直未变或感情色彩从贬义逐渐变为褒义等,然后,基于再筛选出不满足该变化趋势信息的数据作为失真数据);

第二步,判断所述量化数据离散程度值是否大于预先确定的量化数据离散程度阈值,其中,所述量化数据离散程度阈值基于所述大数据去噪处理设备响应用户进行的配置操作生成;

第三步,若所述量化数据离散程度值大于所述量化数据离散程度阈值,则将该量化数据离散程度值对应的目标业务数据片段集合确定为不包括属于失真数据的目标业务数据片段;

第四步,若所述量化数据离散程度值小于或等于所述量化数据离散程度阈值,则计算该量化数据离散程度值对应的目标业务数据片段集合中每一个所述原始业务数据片段的量化数据值与所述量化均值之间的差值;

第五步,判断所述差值与预先确定的比较阈值之间的大小关系(可以理解的是,该比较阈值可以基于用户根据实际应用场景进行的配置生成);

第六步,若所述差值大于所述比较阈值,则将所述差值对应的原始业务数据片段确定为属于失真数据的目标业务数据片段;

第七步,若所述差值小于或等于所述比较阈值,则不将所述差值对应的原始业务数据片段确定为属于失真数据的目标业务数据片段。

可以理解的是,在另一种可以替代的示例中,也可以基于以下步骤以将各所述原始业务数据片段进行对比分析:

第一步,针对每一个所述目标业务数据片段集合,基于该目标业务数据片段集合中各所述原始业务数据片段对应的内容表征信息,确定该目标业务数据片段集合对应的历史业务数据片段集合,其中,所述历史业务数据片段集合为在历史上对其它原始业务数据进行解析处理而确定的包括失真数据的业务数据片段集合,且所述历史业务数据片段集合与对应的目标业务数据片段集合的内容表征信息相同;

第二步,针对每一个所述历史业务数据片段集合,基于该历史业务数据片段集合包括的各业务数据片段在所述其它原始业务数据中的相对位置关系,对该历史业务数据片段集合包括的各业务数据片段进行排序处理,得到该历史业务数据片段集合对应的历史业务数据片段序列;

第三步,针对每一个所述目标业务数据片段集合,获取该目标业务数据片段集合包括的原始业务数据片段的片段数量;

第四步,针对每一个所述目标业务数据片段集合,在该目标业务数据片段集合对应的历史业务数据片段序列中确定至少一个历史业务数据片段子序列,其中,每一个所述历史业务数据片段子序列包括的业务数据片段的数量为所述目标业务数据片段集合对应的片段数量,且每一个所述历史业务数据片段子序列包括属于失真数据的业务数据片段;

第五步,针对每一个所述目标业务数据片段集合,计算该目标业务数据片段集合对应的有序集合(即将该目标业务数据片段集合中各原始业务数据片段在所述原始业务数据中的相对位置关系进行排序,得到该有序集合)与对应的所述至少一个历史业务数据片段子序列之间的序列相似度(该序列相似度可以基于现有的序列相似度计算方法计算得到,在此不再一一赘述);

第六步,将序列相似度满足预设的相似度阈值(可以理解的是,该相似度阈值可以基于用户根据实际应用场景进行的配置操作生成)的每一个目标业务数据片段集合,确定为存在属于失真数据的目标业务数据片段的目标业务数据片段集合,其中,所述目标业务数据片段基于对应的历史业务数据片段集合中属于失真数据的业务数据片段的位置信息确定。

可以理解的是,在一种可以替代的示例中,可以基于以下步骤以得到去噪后的第一业务数据:

首先,若所述多个原始业务数据片段中存在所述目标业务数据片段,则确定所述多个原始业务数据片段中所述目标业务数据片段以外的每一个原始业务数据片段在所述原始业务数据中的相对位置关系;

其次,基于所述相对位置关系,将所述多个原始业务数据片段中所述目标业务数据片段以外的每一个原始业务数据片段进行组合,得到所述原始业务数据去噪后的第一业务数据。

可以理解的是,在一种可以替代的示例中,若确定所述多个原始业务数据片段中不存在所述目标业务数据片段,可以将所述多个原始业务数据片段都作为去噪后的第一业务数据,即直接将所述原始业务数据作为去噪后的第一业务数据。

可以理解的是,在一种可以替代的示例中,对所述第一业务数据进行清洗处理的具体方式可以包括以下步骤:

第一步,对所述第一业务数据进行内容识别处理(例如,可以基于现有技术中的一些文本识别模型进行识别处理,该文本识别模型可以是预先基于样本数据训练得到的神经网络模型),得到对应的内容识别结果;第二步,基于所述内容识别结果对所述第一业务数据的各个数据部分进行重要程度确定处理,得到每一个所述数据部分对应的重要程度信息;第三步,基于每一个所述数据部分对应的重要程度信息,确定每一个所述数据部分是否属于无效数据;第四步,将不属于无效数据的所述数据部分确定为目标业务数据。

可以理解的是,在另一种可以替代的示例中,对所述第一业务数据进行清洗处理的具体方式也可以包括以下步骤:

第一步,响应用户对所述第一业务数据进行的标识处理,得到对应的标识结果(也就是说,可以通过相应的用户对所述第一业务数据的各个数据部分进行标识,以得到对应的标识结果,该标识结果可以是指对应的数据部分表征的数据内容,如交易行为的主体等);第二步,基于所述标识结果对所述第一业务数据的各个数据部分进行重要程度确定处理,得到每一个所述数据部分对应的重要程度信息;第三步,基于每一个所述数据部分对应的重要程度信息,确定每一个所述数据部分是否属于无效数据;第四步,将不属于无效数据的所述数据部分确定为目标业务数据。

可以理解的是,在其它可以替代的示例中,对所述第一业务数据进行清洗处理的具体方式也可以包括以下步骤:

第一步,响应用户对所述第一业务数据的各个数据部分进行的重要程度标识处理,得到每一个所述数据部分对应的重要程度信息(也就是说,可以通过相应的用户对所述第一业务数据的各个数据部分进行标识,以得到各个数据部分的重要程度信息);第二步,基于每一个所述数据部分对应的重要程度信息,确定每一个所述数据部分是否属于无效数据;第三步,将不属于无效数据的所述数据部分确定为目标业务数据。

可以理解的是,在上述的第一种可以替代的示例中,在一种可能的示例中,可以基于以下步骤进行重要程度确定处理:

首先,获得预先构建的内容-重要程度对应关系,其中,所述内容-重要程度对应关系基于所述大数据清洗设备响应用户进行的第一配置操作生成;其次,基于所述内容识别结果和所述内容-重要程度对应关系,确定所述第一业务数据的各个数据部分的重要程度信息。

可以理解的是,在上述的第一种可以替代的示例中,在另一种可能的示例中,可以基于以下步骤进行重要程度确定处理:

首先,针对所述第一业务数据中的每一个数据部分,判断该数据部分是否存在预设标记信息,其中,所述预设标记信息基于响应用户操作生成;其次,将存在所述预设标记信息的每一个数据部分的重要程度信息确定为具有第一重要程度信息,并将不存在所述预设标记信息的每一个数据部分的重要程度信息确定为具有第二重要程度信息,其中,所述第一重要程度信息用于表征对应的数据部分不属于无效数据,所述第二重要程度信息用于表征对应的数据部分属于无效数据。

可以理解的是,在上述的第一种可以替代的示例中,在一种可能的示例中,可以基于以下步骤确定每一个所述数据部分是否属于无效数据:

第一步,获取预先配置的重要程度阈值信息,其中,所述重要程度阈值信息基于所述大数据清洗设备响应用户进行的第二配置操作生成;第二步,判断每一个所述数据部分对应的重要程度信息是否小于所述重要程度阈值信息;第三步,将小于所述重要程度阈值信息的每一个重要程度信息对应的所述数据部分确定为无效数据,并将大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分确定为有效数据。

可以理解的是,在上述的第一种可以替代的示例中,在另一种可能的示例中,可以基于以下步骤确定每一个所述数据部分是否属于无效数据:

第一步,获取预先配置的重要程度阈值信息,其中,所述重要程度阈值信息基于所述大数据清洗设备响应用户进行的第二配置操作生成;第二步,判断每一个所述数据部分对应的重要程度信息是否小于所述重要程度阈值信息;第三步,统计大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分的数据量;第四步,若所述数据量大于或等于预先确定的目标数据量(所述目标数据量可以基于所述大数据清洗设备响应用户进行的第三配置操作生成),则将小于所述重要程度阈值信息的每一个重要程度信息对应的所述数据部分确定为无效数据,并将大于或等于所述重要程度阈值信息的每一个所述重要程度信息对应的所述数据部分确定为有效数据;第五步,若所述数据量小于所述目标数据量,则将每一个所述数据部分确定为有效数据。

综上所述,本申请提供的一种大数据清洗方法,通过将获取的原始业务数据中重要程度低于预设程度的无效数据予以筛除,使得可以得到重要程度较高的目标业务数据。如此,通过筛除相对不重要的无效数据、保留相对重要的有效数据,可以使得数据清洗的效果较佳,从而改善现有技术中数据清洗的效果较差的问题。

在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

THE END
1.大数据数据清洗概述,一文可以简单理解大数据的数据清洗大数据数据清洗是指对大数据进行预处理,通过一系列的数据清洗操作,将原始数据中的错误、重复、不一致等问题进行修正和处理,以提高数据的质量和可用性。数据清洗是大数据分析的重要环节,对于保证数据分析结果的准确性和可信度具有重要作用。 数据清洗的过程包括数据预处理、数据去重、数据筛选、数据修正和数据标准化等步骤。https://blog.csdn.net/FC3379ZC3281/article/details/142452061
2.大数据清洗数据为王的时代,企业需要专业而易用的大数据清洗治理工具,保障数据质量的准确性、一致性、及时性和完整性,支撑业务分析人员实施精准的数据分析、挖掘建模和微型应用开发,大幅提高企业的管理水平、决策效率和盈利能力。 技术优势: 大数据清洗治理工具是为提升数据质量而设计的一款以大数据平台的计算框架为基础的专业且易用http://en.bigdataway.cn/solution/data_cleaning/
3.大数据清洗技术应用数据清洗华为云帮助中心为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:大数据清洗技术应用。https://support.huaweicloud.com/topic/1202812-1-D
4.大数据清洗的方法数据清洗的基本流程星云联动大数据清洗的方法及流程 数据清洗简单概述就是对企业在运行经营过程中,产生的纷繁复杂的数据进行抽取、转换、加载三个部分。具体细化流程则分为分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理几部分,以下我们将数据清洗分为两部分进行介绍,既数据清洗的方法、数据清洗基本流程。https://www.istarscloud.com/?p=1850
5.JAVA大数据数据清洗Hadoop是一个开源框架,提供了分布式存储和分布式计算的能力。它可以高效地处理大规模数据集,并通过分布式计算的方式进行数据清洗和分析。 2. Spark: Spark是一个快速、通用的大数据处理引擎,具有内存计算能力和容错机制。它可以与JAVA语言无缝集成,提供了丰富的API,方便进行数据清洗和分析操作。 http://chatgpt.cmpy.cn/article/5223935.html
6.大数据中的数据清洗理想股票技术论坛大数据中的数据清洗是指对海量数据进行筛选、清理和加工的过程。通过使用各种技术和方法,包括数据去重、缺失值处理、异常值检测等,确保数据的准确性、完整性和一致性,为后续的数据分析和挖掘提供可靠的基础。了解数据清洗的流程和掌握有效的数据清洗方法对于从大数据中获https://www.55188.com/tag-3941298.html
7.数据清洗(普通高等教育数据科学与大数据技术专业教材)(豆瓣)《数据清洗(普通高等教育数据科学与大数据技术专业教材)》编写目的是向读者介绍大数据清洗的基本概念和相应的技术应用,共分8章:数据清洗简介、数据清洗中的理论基础、文件格式及其转换、Excel数据清洗、Kettle数据清洗、Kettle与数据仓库、Python数据清洗、数据清洗综合实训。 《数据清洗(普通高等教育数据科学与大数据技术专业https://book.douban.com/subject/35820908/
8.《大数据技术入门》课件第5章数据清洗.ppt2)数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 3)ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。 思政案例 大数据清洗的质量规范 数据缺失值的处理方法 (1)删除缺失值 (2)https://m.book118.com/html/2022/0821/7145130056004155.shtm
9.数据清洗(精选5篇)首先,现有的数据清洗算法的效率并不能满足大数据的需求。并行计算是大数据算法的一个常用手段。然而,除了少数实体识别的算法[2-3]外,几乎没有其他的并行数据清洗算法获得提出。具有多种数据质量问题的大数据清洗工作的整体效率往往也都不高。 其次,现有的数据清洗系统[4-7]集中于数据质量的某一方面。NADEEF[8]支持https://www.1mishu.com/haowen/109815.html
10.大数据平台数据清洗数据清洗是指对采集到的原始数据进行处理,包括去除重复数据、填充缺失值、纠正错误等,以提高数据的质量和可用性。在搭建大数据平台时,还需要考虑数据安全和隐私保护。大数据平台涉及的数据量庞大搭建大数据平台是指通过构建一个集成的系统,能够高效地存储、处理和分析大规模数据的技术架构。大数据平台的搭建可以帮助企业或https://www.transwarp.cn/keyword-detail/53116-1
11.基于科技创新大数据公共平台的数据清洗研究3张婷婷;李伟;郝晓艳;基于R软件对医学研究中多选题的数据清洗与分析[J];东南大学学报(医学版);2022年06期 4吴运驰;马庆;宋波;张永峰;采油工程领域的数据清洗方法研究[J];电脑知识与技术;2023年03期 5陈旭;多源异构环境下基于层次约简分类的大数据清洗方法研究[J];电脑与电信;2023年Z1期 https://cdmd.cnki.com.cn/Article/CDMD-10107-1018780697.htm
12.数据清洗(精选6篇)大数据时代,无论是做推广营销,还是数据分析等服务,自然都离不开大数据清洗空号,做手机号和固话前端处理,这样的好处在于: 可清洗中国移动、中国联通、中国电信的所有手机或固话号。该项目可让公司准确、系统而灵活地进行空号检测,剔除无效号码,确保定期清理号码库的实现,极大保持数据库号码的鲜活度。 https://www.360wenmi.com/f/file1bnbuque.html
13.什么是大数据分析的数据清洗?大数据分析过程中的数据清洗步骤是指对原始数据进行预处理的一系列操作,以确保数据质量和准确性。数据清洗步骤通常包括以下几个方面:1. 数据清洗:对原始数据进行清洗和处理,包括删除重复数据、处理缺失值、纠正错误等。2. 数据转换:将原始数据从一种格式转换为另一种格式,以便后续分析。3. 数据归一化https://zhidao.baidu.com/question/1122358299170744939.html
14.大数据分析的关键技术有哪些大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。大数据价值的完整体现需要多种技术的协同。大数据关键技术涵盖数据存储、处理、应用等多方面的技术。 1、大数据清洗与融合技术 大数据清洗融合技术旨在将各种不同形态、来源、格式、特点的https://www.linkflowtech.com/news/2065
15.大数据要“落地”,还缺些什么?投资界“大数据”是在2013年被用滥了的词汇,但实际上,由于数据量缺失、大数据清洗和分析能力不足,以及数据可视化瓶颈等问题,“大数据”一直未网站阐述了他对于大数据接下来发展的认识,他认为更快地数据处理、更可靠地数据质量,以及给更加细分的应用市场,是大数据2.0时代的重要特征。 https://m.pedaily.cn/news/358788
16.大数据进行数据清洗的基本流程详细讲解数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。 1.数据分析 数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。 https://www.jianshu.com/p/33ad3063c7ce
17.《数据清洗(大数据技术与应用丛书)》价格目录书评正版数据清洗是大数据预处理的关键环节。面对错综复杂的数据,传统的清洗“脏”数据工作单调且异常辛苦,如果能利用正确的工具和方法,可以让数据清洗工作变得事半功倍。该书讲解数据清洗的理论知识和实际应用,全书共8章:第1章主要带领大家简单认识数据清洗;第2章主要讲解ETL技术相关的知识;第3章讲解Kettle工具的基本使用;第http://m.bookschina.com/9034676.htm
18.建大数据交易中心四川欲后来居上制定通用标准提供大数据清洗服务 作为先行者,贵阳大数据交易所上线一年,交易额突破7000万元,但也暴露出供需矛盾——买数据的人多,卖数据的人少。究其原因,包括很多政府部门在内的机构和企业,虽然掌握大量数据,也希望将其变现,但缺乏将大数据转化为商品的能力。 https://www.sc.gov.cn/10462/10464/10797/2016/6/1/10382696.shtml