只显示主题贴

一、框架介绍   公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。         目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日 ...
  • 进入论坛 Java
jason823
搜索本博客
博客分类
最近加入圈子
最新评论