现实世界的数据往往是不完整的、有噪声的和不一致的。数据清理过程包括缺失数据处理、噪声数据处理和不一致数据处理。本节介绍数据清理的主要处理方法。
缺失数据处理
假设在分析商场销售数据时,发现多条记录中的属性值为空,如客户的收入属性,对于空属性值,可以使用以下方法处理缺失数据。
1)忽略记录
如果省略了记录中的某个属性值,这条记录就会被排除在外,特别是在没有类别属性值、需要进行分类数据挖掘的情况下。
当然,这种方法不是很有效,尤其是当每个属性的缺失值记录比例变化很大时。
2)手工填写缺少的值
通常,该方法耗时较长,对于遗漏较多的大规模数据集,可行性明显较差。
3)用默认值填写缺少的值
属性的所有缺失值都用一个预定值填充,如“OK”。但是,当一个属性的缺失值较多时,如果采用这种方法,可能会误导挖掘过程。
因此,这种方法虽然简单,但不建议使用,或者在使用时需要仔细分析充填后的情况,尽可能避免最终开采结果出现较大误差。
4)用均值填补缺失值
计算属性的平均值,并用该值填充该属性的所有缺失值。例如,如果客户平均收入为1万元,则使用该值填充“客户收入”属性中所有缺失的值。
5)用同一类别的平均值填补缺失值
该方法特别适用于分类挖掘。
例如,如果要按照信用风险对商场客户进行分类挖掘,可以使用同一信用风险类别下“客户收益”属性的平均值(如good)来填补同一信用风险类别下“客户收益”属性的所有缺失值。
6)使用最可能的值来填充遗留
泄漏值
可以使用回归分析、贝叶斯计算公式或决策树来推断此记录特定属性的最大可能值。
例如,利用数据集中其他客户的属性值,可以构建决策树来预测“客户收入”属性的缺失值。
最后一种方法是一种比较常用的方法,与其他方法相比,它最大限度地利用当前数据中包含的信息来帮助预测缺失的数据。
噪声数据处理很多初学者,对大数据的概念比较模糊,什么是大数据,可以做什么,我在学习的时候,应该走什么路线去学习,学习到哪里去发展之后,欢迎想了解更多,想学习的同学加入大数据学习企鹅群:458345782。有海量干货(零基础进阶经典实战)分享给大家,更有毕业于清华大学的资深大数据讲师为大家免费授课。与大家分享目前国内最完整的大数据高端实践学习流程体系
噪声是指被测变量的随机误差和变化。通过给出一个数值属性(如价格)来说明平滑去噪的具体方法。
1.结合法
Bin方法利用待平滑数据点的周围点(最近邻)对一组排序数据进行平滑。排序的数据被分配到几个桶中(称为Bins)。
如图1所示,划分Bin一般有两种方法,一种是等高法,即每个Bin的元素数相等,另一种是等宽法,即每个Bin的值间距(左右边界之差)相同。
图1两种典型的Bin划分方法
图2描述了一些Bin方法技术。首先对价格数据进行排序,然后将其分成若干等高的仓,即每个仓包含三个值。最后可以利用每个Bin的平均值或每个Bin的边界对其进行平滑。
均值法水准测量
滑动时,第一仓中的4、8、15都用仓的均值代替。利用边界进行平滑时,给定仓的最大值和最小值构成仓的边界,仓内的所有值都可以用每个仓的边界值(最大值或最小值)代替。
一般来说,每个仓的宽度越宽,平滑效果越明显。
图2用Bin方法平滑去噪
2.聚类分析方法
聚类分析可以帮助发现异常数据。相似或相邻的数据被聚集在一起形成各种聚类集,这些聚类集之外的数据对象自然被认为是异常数据。
如图3所示。聚类分析方法的具体内容将在本章教程大数据挖掘中详细介绍。
图3基于聚类分析方法的异常数据监测
3.人机检验法
通过人机结合的检查方法,可以帮助发现异常数据。
例如,基于信息论的方法可以帮助识别手写符号库中的异常模式,识别出的异常模式可以输出到一个列表中,然后这个列表中的每个异常模式都可以被人检查,最终确认无用模式(真正的异常模式)。
这种人机结合检查方法比手写符号库的人工检查方法效率高得多。
4.回归方法
拟合函数可以用来平滑数据。
例如,借助线性回归方法,包括多元回归方法,可以得到多个变量之间的拟合关系,从而达到用一个变量(或一组变量)的值预测另一个变量值的目的。
通过回归分析得到的拟合函数可以帮助平滑数据,去除噪声。
许多数据平滑方法也是数据约简方法。例如,上面描述的Bin方法可以帮助减少属性中的不同值,这意味着Bin方法可以
作为一种基于逻辑挖掘方法的数据约简处理方法。
不一致数据处理
现实世界的数据库经常存在定性数据记录内容不一致的问题,其中一些数据可以利用其与外界的关联来手工解决。
例如,数据录入错误一般可以通过与原始手稿进行比对来纠正。此外,还有一些方法可以帮助纠正使用编码时的不一致。知识工程工具还可以帮助发现违反数据约束的情况。
由于同一属性在不同数据库中的名称不规范,常常导致数据集成不一致。