缺失数据插补方法探讨——基于最近邻插补法和关联规则法

被引:21
|
作者
于力超 [1 ]
金勇进 [2 ]
王俊 [1 ]
机构
[1] 中国人民大学统计学院
[2] 中国人民大学应用统计科学研究中心
关键词
关联规则; 缺失数据; 最近邻插补; 加权距离;
D O I
暂无
中图分类号
O212.2 [抽样理论、频率分布];
学科分类号
020208 ; 070103 ; 0714 ;
摘要
提出基于最近邻插补和关联规则的缺失数据插补方法,将不含缺失数据的变量作为辅助变量,通过定义距离函数寻找与含缺失数据的样本单元距离较近的样本,然后利用挖掘得到的关联规则支持度和提升度乘积的倒数作为权重,对样本单元之间的距离进行加权处理,得到加权距离,再用加权距离最小的样本单元对应的属性值对缺失值进行插补。这种方法可以解决由不同最近距离样本单元得到不同插补值的问题,最后给出了该方法的实施步骤和应用范例。
引用
收藏
页码:35 / 40
页数:6
相关论文
共 2 条
  • [1] 数据挖掘导论[M]. 人民邮电出版社 , (美)Pang-Ning Tan, 2011
  • [2] MVC—a preprocessing method to deal with missing values[J] . A. Ragel,B. Crémilleux.Knowledge-Based Systems . 1999 (5)