噪声包含错误值(类别型字段)及离群值(数值型字段)
噪声使探勘结果有相当大的偏差,必须将噪声移除或将其做适当的处理
2.空值(MissingValue)填补
人工填补自动填补
二.噪声如何处理
针对类别型字段,检视其分布(找错误值)针对数值型字段,检视其分布(找离群值)
平均值(+-)3*标准差
(1个标准差:68%;2个标准差:95%;3个标准差:99.7%)
IQR=Q3–Q1
Q1–1.5*IQR~Q3+1.5*IQR
2.噪声处理方法
错误值(类别型字段)
视为空值
离群值(数值型字段)
三、数据空值处理
处理数据遗缺最简单的方法搜集的数据量很多,而遗缺数据只占一小部分时,便可直接删除
遗缺数据占整个字段所有数据的比例过大时(>50%),便可直接删除
进行分类建模时,若数据的分类标记(ClassLabel)为空值,这笔数据因无法被正确分类,便可直接删除
缺点
数据遗缺比例很可观时,会造成大量数据流失
2转换成指示变量(IndicatorVariable)
当字段有遗缺值时,则将整个字段转换成指示变量(IndicatorVariable)
处理数据遗缺的特殊方法
遗缺数据占整个字段所有数据的比例过大时(>50%),便可使用此法
使用此法的理论基础为空值也是行为的另一种呈现
3.人工填补
了解数据遗缺原因,采用适当的值填补
当数据遗缺较多时,耗时且人力负担沉重
4.自动填补
(1)类别字段
填入一个通用的常数值如填入“未知/Unknown”,成为一个新的类别填入该字段的众数(Mode)缺点是不够客观可用分群的方式,分群求众数更精确作法是利用模型求出较可能的值来填入把填遗缺值的问题当作是分类的问题
(2)数值字段
填入一个通用的常数如填入0(但需Check其意义)填入该字段的整体平均值(Mean)不会对统计结果造成太大的影响缺点是不够客观可用分群的方式,分群求平均值