只显示主题贴
一、框架介绍
公司最近项目要用到全文检索,检索对象是一些网站的网页内容,要使用到网络爬虫工具。
目前技术选型对象主要有两个:Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日 ...
- 进入论坛 Java 版
- 浏览: 5423 次
- 性别:


- 详细资料
搜索本博客
最近加入圈子
最新评论
-
Using embedded-jboss for ...
楼主有没有写过TestNG测试啊,有没有使用AssembledContextFa ...
-- by polygoncell -
Heritrix使用的初步总结
很奇怪运行起来之后,Modules下各种预设置没有修改项出来。
-- by pzhifeng -
Heritrix使用的初步总结
选择"Modules"右边的"Submodules 这个Submodules能不 ...
-- by liu_xingjian -
Heritrix使用的初步总结
正在学习怎么把抓取的内容跟lucene结合使用
-- by suyejun -
Heritrix使用的初步总结
Heritrix其实并没有我想像中那么强大和好用,提供的功能没有nutch多,有 ...
-- by johnnyhg






评论排行榜