Deep Web爬虫研究与设计

被引:28
|
作者
郑冬冬
赵朋朋
崔志明
机构
[1] 苏州大学计算机科学与技术系 苏州215006
[2] 苏州大学计算机科学与技术系
关键词
DeepWeb; 导航模式; 领域本体知识库; 爬虫;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.036
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
随着W eb的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由D eep W eb后台数据库动态产生的。在这种情况下,信息集成就更加需要W eb爬虫来自动获取这些页面以进一步地处理数据。为了帮助用户完成这样的任务,提出一种用于搜集D eep W eb页面的爬虫的设计方法。此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自W eb站点的导航模式来识别自动填写表单时所需进行的路径导航。通过对来自不同领域的D eep W eb站点的大量实验,验证了此方法是非常有效的。
引用
收藏
页码:1896 / 1902
页数:7
相关论文
共 9 条
  • [1] Extracting structured data from Web pages. Arvind A,Hector G M. ACM SIGCOMM . 2003
  • [2] Extracting data behind Web forms. Liddle S,Embley D,Scott D,et al. Proceedings of the Workshop on Conceptual Modeling Approaches for e-Business . 2002
  • [3] A brief survey of Web data extraction tools. Laender A H F,Ribeiro-Neto B,Silva A S da,et al. SIGMOD Record . 2002
  • [4] Crawling the hidden Web. Raghavan S,Garcia-Molina H. Proceedings of the 27th International Conference on Very Large Data Bases . 2001
  • [5] Hierarchical wrapper induction for semistructured information sources. Muslea I,Minton S,Knoblock C. Autonomous Agents and Multi-A gent Systems . 2001
  • [6] An example-based environment for wrapper generation. Golgher P B,Laender A H F,Silva A S da,et al. Proceedings of the 2nd International Workshop on The World Wide Web and Conceptual Modeling . 2000
  • [7] The use of machine-generated ontologies in dynamic information seeking. Modica G,Gal A,Jamil H M. Proceedings of the 9th International Conference on Cooperative Information Systems . 2001
  • [8] Siphoning hidden-web data through keyword-based interfaces. Barbosa L,Freire J. SBBD . 2004
  • [9] Automating the extraction of domain-specific information from the web-a case study for the genealogical domain. Walker Troy. Brigham Young University . 2004