计算机科学论坛--数据挖掘中数据预处理技术综述[分享]

[B]第15卷第1期
2003年3月
甘肃科学学报
Journal of Gansu Sciences
Vo1．15 No．1
M ar．2003
文章编号：1004—0366(2003)01-0117—03
数据挖掘中数据预处理技术综述
刘莉，徐玉生，马志新
(兰州大学信息科学与工程学院，甘肃兰州 730000)
摘要：数据挖掘是数据库系统和信息决策领域的前沿研究方向．论述了数据预处
理在数据挖掘中的重要地位，介绍了数据预处理所包含的内容和采用的方法．
关键词：数据挖掘；数据预处理；数据清理；数据集成；数据归约
中图分类号： TP311 文献标识码： A
数据挖掘把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策
支持服务n]．数据挖掘过程可分为：问题定义、数据预处理、数据挖掘以及结果的解释和评估
等阶段．目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等．而事实上数据
挖掘对所处理的数据有严格的质量要求．在数据挖掘过程中数据预处理至关重要．根据统
计，在一个完整的数据挖掘过程中，数据预处理要花费6O 左右的时间，而后的挖掘工作仅占
总工作量的1O 左右。．3]．数据预处理主要包括数据清理、集成和归约．数据清理是处理数据
中的遗漏和清洗脏数据．数据集成将多数据源中的数据进行合并处理，解决语义模糊性并整
合成一致的数据存储．数据归约将辨别出需要挖掘的数据集合，缩小处理范围．
1 数据清理
数据清理主要处理空缺值，平滑噪声数据(脏数据)，识别、删除孤立点．数据清理的基本
方法：
(1)空缺值处理目前最常用的方法是使用最可能的值填充空缺值，比如可以用回归、贝
叶斯形式化方法工具或判定树归纳等确定空缺值．这类方法依靠现有的数据信息来推测空缺
值，使空缺值有更大的机会保持与其他属性之间的联系．
还有其他一些方法来处理空缺值，如用一个全局常量替换空缺值、使用属性的平均值填充
空缺值或将所有元组按某些属性分类，然后用同一类中属性的平均值填充空缺值．如果空缺
值很多，这些方法可能误导挖掘结果．
(2)噪声数据处理噪声是一个测量变量中的随机错误或偏差，包括错误的值或偏离期
望的孤立点值．可以用以下的数据平滑技术来平滑噪声数据，识别、删除孤立点．
①分箱：将存储的值分布到一些箱中，用箱中的数据值来局部平滑存储数据的值．具体可
以采用按箱平均值平滑、按箱中值平滑和按箱边界平滑；
② 回归：可以找到恰当的回归函数来平滑数据．线性回归要找出适合两个变量的“最佳”
直线，使得一个变量能预测另一个．多线性回归涉及多个变量，数据要适合一个多维面}
收稿日期；2OO2一O4—1O
维普资讯 http://www.cqvip.com
118 甘肃科学学报 2003年第1期
③计算机检查和人工检查结合：可以通过计算机将被判定数据与已知的正常值比较，将差
异程度大于某个阈值的模式输出到一个表中，然后人工审核表中的模式，识别出孤立点；
④聚类：将类似的值组织成群或“聚类”，落在聚类集合之外的值被视为孤立点．孤立点模
式可能是垃圾数据，也可能是提供信息的重要数据．垃圾模式将从数据库中予以清除．
2 数据集成
数据挖掘需要对数据进行集成，也就是将多个数据源中的数据合并存放在一个同一的数
据存储(如数据仓库、数据库等)中，数据源可以是多个数据库、数据立方体或一般的数据文
件．数据集成涉及3个问题：
(1)模式集成涉及实体识别，即如何将不同信息源中的实体匹配来进行模式集成．通
常借助于数据库或数据仓库的元数据进行模式识别；
(2)冗余数据集成往往导致数据冗余，如同一属性多次出现、同一属性命名不一致等．
对于属性间冗余可以用相关分析检测到，然后删除；
(3)数据值冲突的检测与处理由于表示、比例、编码等的不同，现实世界中的同一实体，
在不同数据源的属性值可能不同．这种数据语义上的歧义性是数据集成的最大难点，目前没
有很好的办法解决．
3 数据归约
数据归约技术可以用来得到数据集的归约表示，它接近于保持原数据的完整性，但数据量
比原数据小得多．与非归约数据相比，在归约的数据上进行挖掘，所需的时间和内存资源更
少，挖掘将更有效，并产生相同或几乎相同的分析结果．几种数据归约的方法：
(1)维归约通过删除不相关的属性(或维)减少数据量．不仅压缩了数据集，还减少了
出现在发现模式上的属性数目．通常采用属性子集选择方法找出最小属性集，使得数据类的
概率分布尽可能地接近使用所有属性的原分布．属性子集选择的启发式方法技术有：①逐步
向前选择：由空属性集开始，将原属性集中“最好的”属性逐步填加到该集合中；②逐步向后删
除：由整个属性集开始，每一步删除当前属性集中的“最坏”属性；③向前选择和向后删除的结
合：每一步选择“最好的”属性，删除“最坏的”属性；④ 判定树归纳：使用信息增益度量建立分类
判定树，树中的属性形成归约后的属性子集．
(2)数据压缩应用数据编码或变换，得到原数据的归约或压缩表示．数据压缩分为无
损压缩和有损压缩．比较流行和有效的有损数据压缩方法是小波变换和主要成分分析．小波
变换对于稀疏或倾斜数据以及具有有序属性的数据有很好的压缩结果．主要成分分析计算花
费低，可以用于有序或无序的属性，并且可以处理稀疏或倾斜数据．
(3)数值归约数值归约通过选择替代的、较小的数据表示形式来减少数据量．数值归
约技术可以是有参的，也可以是无参的．有参方法是使用一个模型来评估数据，只需存放参
数，而不需要存放实际数据．有参的数值归约技术有以下2种：
回归：线性回归和多元回归；对数线性模型：近似离散属性集中的多维概率分布．
无参的数值归约技术有3种：①直方图：采用分箱技术来近似数据分布，是一种流行的数
值归约形式．其中V一最优和MaxDiI{直方图是最精确和最实用的；②聚类：聚类是将数据元
组视为对象，它将对象划分为群或聚类，使得在一个聚类中的对象“类似”，而与其他聚类中的
维普资讯 http://www.cqvip.com
第15卷刘莉等：数据挖掘中数据预处理技术综述 119
对象“不类似”，在数据归约时用数据的聚类代替实际数据；③ 选样：用数据的较小随机样本表
示大的数据集，如简单选样、聚类选样和分层选样等．
(4)概念分层概念分层通过收集并用较高层的概念替换较低层的概念来定义数值属性
的一个离散化．概念分层可以用来归约数据，通过这种概化尽管细节丢失了，但概化后的数据
更有意义、更容易理解，并且所需的空间比原数据少．
对于数值属性，由于数据的可能取值范围的多样性和数据值的更新频繁，说明概念分层是
困难的．数值属性的概念分层可以根据数据的分布分析自动地构造，如用分箱、直方图分析、
聚类分析、基于熵的离散化和自然划分分段等技术生成数值概念分层．
分类数据本身是离散数据，一个分类属性具有有限个不同值，值之间无序．一种方法是由
用户专家在模式级显示地说明属性的部分序或全序，从而获得概念的分层；另一种方法是只说
明属性集，但不说明它们的偏序，由系统根据每个属性不同值的个数产生属性序，自动构造有
意义的概念分层．
4 结束语
在数据实际挖掘过程中，数据清理、数据集成和数据归约不一定都用到．此外，它们的使
用没有先后顺序，某一种预处理可能先后要多次进行．尽管有多种数据预处理的方法和技术，
但都不够成熟．所以，对数据挖掘中的数据预处理还需要做很多研究．
参考文献：
[1] 许兆新，周双娥，郝燕玲，等．决策支持系统相关技术综述D]．计算机应用研究，2001，18(2)：35．38．
[2] R Wang，V Storey，C Firth．A Framework for Analysis of Data Quality Research[J]．IEEE Trans Knowledge and
Data Engineering，1995，(7)：623—640．
[3] Jiawei Han and Micheline Kamber．Data Mining：Concepts and Techniques[M]．USA{Morgan Kaufmann Publish—
ers．2001．70—9S．
A SURVEY TO DATA PREPROCESSING IN DATA M INING
LIU Li，XU Yu-sheng，MA Zhi-xin
(School of Information Science and Engineering，Lanzhou University，Lanzhou 730000，China)
Abstract： Data mining has been one of the heated fields in database and decision support
system in recent years．The main role of data preprocessing is discussed and the components
and methods of data preprocessing are introduced．
Key words： data mining；data preprocessing；data cleaning；data integration；data reduc—
tion
作者简介：
刘莉，(1971一)女，甘肃省兰州市人，1997年在兰州大学计算机系获硕士学位，现任兰州大学信息学院
讲师，研究方向为人工智能、数据库技术等．
维普资讯 http://www.cqvip.com[/B]


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	70.313ms