共 1 条
一种基于聚类的数据匿名方法
被引:49
|作者:
王智慧
[1
]
许俭
[1
]
汪卫
[1
]
施伯乐
[1
]
机构:
[1] 复旦大学计算机科学技术学院
来源:
基金:
高等学校博士学科点专项科研基金;
关键词:
数据匿名;
准标识符;
链接攻击;
聚类;
信息损失;
D O I:
暂无
中图分类号:
TP309.2 [数据安全];
学科分类号:
081201 ;
0839 ;
1402 ;
摘要:
为了防止个人隐私的泄漏,在数据共享前需要对其在准标识符上的属性值作数据概化处理,以消除链接攻击,实现在共享中对敏感属性的匿名保护.概化处理增加了属性值的不确定性,不可避免地会造成一定的信息损失.传统的数据概化处理大都建立在预先定义的概念层次结构的基础上,会造成过度概化,带来许多不必要的信息损失.将准标识符中的属性分为有序属性和无序属性两种类型,分别给出了更为灵活的相应数据概化策略.同时,通过考察数据概化前后属性值不确定性程度的变化,量化地定义了数据概化带来的信息损失.在此基础上,将数据匿名问题转化为带特定约束的聚类问题.针对l-多样模型,提出了一种基于聚类的数据匿名方法L-clustering.该方法能够满足在数据共享中对敏感属性的匿名保护需求,同时能够很好地降低实现匿名保护时概化处理所带来的信息损失.
引用
收藏
页码:680 / 693
页数:14
相关论文