网络爬虫技术的研究

被引:131
|
作者
孙立伟 [1 ]
何国辉 [1 ]
吴礼发 [1 ]
机构
[1] 解放军理工大学指挥自动化学院
关键词
搜索引擎; 网络爬虫;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
网络信息资源的迅猛增长使得传统搜索引擎已经无法满足人们对有用信息获取的要求,作为搜索引擎的基础和重要组成部分,网络爬虫的作用显得尤为重要,该文介绍了网络爬虫的基本概念、爬行Web面临的困难及应对措施,其次从体系结构、爬行策略和典型应用等方面研究了通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫四种常见网络爬虫,最后指出了进一步工作的发展方向。
引用
收藏
页码:4112 / 4115
页数:4
相关论文
共 8 条
  • [1] 深层网络爬虫研究综述
    曾伟辉
    李淼
    [J]. 计算机系统应用, 2008, (05) : 122 - 126
  • [2] 基于XQuery的Deep Web搜索系统的设计与实现
    孙彬
    王东
    李娟
    [J]. 科学技术与工程, 2007, (16) : 4080 - 4084
  • [3] Deep Web爬虫研究与设计
    郑冬冬
    赵朋朋
    崔志明
    [J]. 清华大学学报(自然科学版), 2005, (S1) : 1896 - 1902
  • [4] Web信息采集研究进展
    李盛韬
    余智华
    程学旗
    白硕
    [J]. 计算机科学, 2003, (02) : 151 - 157
  • [5] 基于领域概念定制的主题爬虫系统的设计与实现[D]. 蒋科.西安电子科技大学. 2007
  • [6] 网站聚焦爬虫研究[D]. 刘洁清.江西财经大学. 2006
  • [7] Lucene+Nutch搜索引擎开发[M]. 人民邮电出版社 , 王学松, 2008
  • [8] Architectural design and evaluation of an efficient Web-crawling system
    Yan, HF
    Wang, JY
    Li, XM
    Guo, L
    [J]. JOURNAL OF SYSTEMS AND SOFTWARE, 2002, 60 (03) : 185 - 193