一种基于聚类的数据匿名方法

被引:49
|
作者
王智慧 [1 ]
许俭 [1 ]
汪卫 [1 ]
施伯乐 [1 ]
机构
[1] 复旦大学计算机科学技术学院
基金
高等学校博士学科点专项科研基金;
关键词
数据匿名; 准标识符; 链接攻击; 聚类; 信息损失;
D O I
暂无
中图分类号
TP309.2 [数据安全];
学科分类号
081201 ; 0839 ; 1402 ;
摘要
为了防止个人隐私的泄漏,在数据共享前需要对其在准标识符上的属性值作数据概化处理,以消除链接攻击,实现在共享中对敏感属性的匿名保护.概化处理增加了属性值的不确定性,不可避免地会造成一定的信息损失.传统的数据概化处理大都建立在预先定义的概念层次结构的基础上,会造成过度概化,带来许多不必要的信息损失.将准标识符中的属性分为有序属性和无序属性两种类型,分别给出了更为灵活的相应数据概化策略.同时,通过考察数据概化前后属性值不确定性程度的变化,量化地定义了数据概化带来的信息损失.在此基础上,将数据匿名问题转化为带特定约束的聚类问题.针对l-多样模型,提出了一种基于聚类的数据匿名方法L-clustering.该方法能够满足在数据共享中对敏感属性的匿名保护需求,同时能够很好地降低实现匿名保护时概化处理所带来的信息损失.
引用
收藏
页码:680 / 693
页数:14
相关论文
共 1 条
  • [1] 支持多约束的K-匿名化方法
    杨晓春
    刘向宇
    王斌
    于戈
    [J]. 软件学报, 2006, (05) : 1222 - 1231