数据清洗是一种消除数据里面的错误,去掉重复数据的技术。它可以集成在ETL过程中。在从数据源建立数据仓库的过程中发挥作用,也可以直接运行在某个数据库上,数据经过清洗以后最后还是保存到原来的数据库里。
基于准确的数据(高质量)进行分析,才有可能获得可信的分析结果,基于这些分析结果才有可能做出正确的决策,否则,在不准确的数据(包含很多错误)上进行分析,有可能导致错误的认识和决策。
Garbagein,thenGarbageout
数据清洗的目的就是剔除数据中的异常。
数据异常大致有三类
正确性指的是数据集里面所有正确的取值相对于所有取值的比例
代表相同实体的重复元组,占数据集里所有元组的比例。
数据清洗是剔除数据里的异常,使得数据集成为现实世界的准确、没有重复的表示的过程。
数据集成是从多个数据源建立统一的数据视图的一种技术
数据集成是指把数据从多个数据源整合在一起,提供一个观察这些数据的统一视图的过程,通过数据集成,我们就可以对整合在一起的数据进行查询,获得对事物的更加完整的认识。
数据集成分为物理式数据集成、虚拟式数据集成两类
数据集成要解决的首要问题就是各个数据源之间的异构性,所谓异构性就是差异性
联邦数据库是最简单的数据集成模式,需要在每对数据源之间创建映射和转换的软件(包装器)
优点:
缺点:
在n个数据源的情况下最多需要建立n(n-1)/2个Wapper
数据仓库是最通用的一种数据集成模式
同步数据源和数据仓库的数据的两种方法
总结:无论哪种方法都不能保证数据仓库里的数据是最新的
ETL:数据的抽取、转换和装载
ETL过程在数据仓库之外完成数据仓库负责存储数据,以备查询。
如果从多个异构的数据源ETL数据到数据仓库中,而且这些数据源存在各种异构性及不一致性,那么就需要对数据进行集成。
如果仅仅从一个数据源ETL数据到数据仓库中,那么无须进行数据集成,这种情况下ETL和数据集成没有关系
在进行ETL操作时,如果数据源的数据质量较差,在数据转化的时候,利用数据清洗技术,解决数据质量的问题,如果数据源的数据质量得到保证,则无须数据清洗。
中介者本身不保存任何数据,数据仍然保存在数据源中。中介者维护一个虚拟的数据模式,它把各个数据源的数据模式组合起来。
中介者模式包括GAV和LAV两种类型
来着不同数据源的数据,即便它们表示的是同样的对象(实体),但是具体的数据有可能是不一样的。
原因:
实体解析是找出表示同样实体的记录,并且把这些记录连接在一起的过程。