一种基于聚类的数据匿名方法

被引：49

作者：

王智慧 ^{[1
]}

许俭 ^{[1
]}

汪卫 ^{[1
]}

施伯乐 ^{[1
]}

机构：

[1] 复旦大学计算机科学技术学院

来源：

软件学报 | 2010年 / 21卷 / 04期

基金：

高等学校博士学科点专项科研基金;

关键词：

数据匿名; 准标识符; 链接攻击; 聚类; 信息损失;

D O I：

暂无

中图分类号：

TP309.2 [数据安全];

学科分类号：

081201 ; 0839 ; 1402 ;

摘要：

为了防止个人隐私的泄漏,在数据共享前需要对其在准标识符上的属性值作数据概化处理,以消除链接攻击,实现在共享中对敏感属性的匿名保护.概化处理增加了属性值的不确定性,不可避免地会造成一定的信息损失.传统的数据概化处理大都建立在预先定义的概念层次结构的基础上,会造成过度概化,带来许多不必要的信息损失.将准标识符中的属性分为有序属性和无序属性两种类型,分别给出了更为灵活的相应数据概化策略.同时,通过考察数据概化前后属性值不确定性程度的变化,量化地定义了数据概化带来的信息损失.在此基础上,将数据匿名问题转化为带特定约束的聚类问题.针对l-多样模型,提出了一种基于聚类的数据匿名方法L-clustering.该方法能够满足在数据共享中对敏感属性的匿名保护需求,同时能够很好地降低实现匿名保护时概化处理所带来的信息损失.

引用

页码：680 / 693

页数：14