一种基于图模型的Web数据库采样方法

被引:29
|
作者
刘伟
孟小峰
凌妍妍
机构
[1] 中国人民大学信息学院 北京100872
[2] 中国人民大学信息学院
基金
北京市自然科学基金; 中国国家自然科学基金;
关键词
deep Web; Web数据库; 数据库采样;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
Web数据库中,海量的信息隐藏在具有特定查询能力的查询接口后面,使人无法了解一个Web数据库内容的特征,比如主题的分布、更新的频率等,这就为DeepWeb数据集成带来了巨大的挑战.为了解决这个问题,提出了一种基于图模型的Web数据库采样方法,可以通过查询接口从Web数据库中以增量的方式获取近似随机的样本,即每次查询获取一定数量的样本记录,并且利用已经保存在本地的样本记录生成下一次的查询.该方法的一个重要特点是不受查询接口中属性表现形式的局限,因此是一种一般的Web数据库采样方法.在本地的模拟实验和真实Web数据库上的大量实验表明,该方法可以在较小代价下获得高质量的样本.
引用
收藏
页码:179 / 193
页数:15
相关论文
共 2 条
  • [1] Structured databases on the web[J] . Kevin Chen-Chuan Chang,Bin He,Chengkai Li,Mitesh Patel,Zhen Zhang.ACM SIGMOD Record . 2004 (3)
  • [2] Query selection techniques for efficient crawling of structured Web sources .2 Wu P,Wen JR,Liu H,Ma WY. Proc.of the22nd Int’l Conf.on Data Engineering . 2006