- A+
《nutch入门》是一个开源Java实现的搜索引擎、它提供了我们运行自己的搜索引擎所需的全部工具、包括全文搜索和Web爬虫、同时花费很少就可以配置世界一流的Web搜索引擎
- 访问量:(1550)
- 下载量:(1)
- 上传时间:2024-11-20
- 作者:李阳
- 下载格式: pdf。共61页。文件容量 :1.3M。
- 作者:李阳
- 1. nutch简介
- 1.1什么是nutch
- 1.2研究nutch的原因
- 1.3 nutch的目标
- 1.4 nutch VS lucene
- 2. nutch的安装与配置
- 2.1 JDK的安装与配置
- 2.2 nutch的安装与配置
- 2.3 tomcat的安装与配置
- 3. nutch初体验
- 3.1 爬行企业内部网
- 3.1.1 配置nutch
- 3.1.2 配置tomcat
- 3.1.3 执行抓取命令
- 3.1.4 测试结果
- 3.1.5 Intranet Recrawl
- 3.2 爬行全网
- 3.2.1 nutch数据集的基本组成
- 3.2.2 爬行"官方"网址
- 3.2.3 爬行中文网址
- 4. nutch基本原理分析
- 4.1 nutch的基本组成
- 4.2 nutch工作流程
- 5. nutch工作流程分析
- 5.1 爬虫
- 5.1.1 工作策略
- 5.1.2 工作流程分析
- 5.1.3 其它
- 5.2 索引
- 5.2.1 索引主要过程
- 5.2.2 工作流程分析
- 5.2.3 倒排索引(inverted index)
- 5.2.4其它
- 5.3 搜索
- 5.4 分析
- 5.5 nutch的其他一些特性
- 6. nutch分析方法和工具
- 6.1 Crawldb
- 6.2 Linkdb
- 6.3 Segments
- 6.4 Index
- 7. nutch分布式文件系统
- 7.1 概述
- 7.2 MapReduce
- 7.3 文件系统语法
- 7.4 文件系统设计
- 7.5 系统的可用性
- 7.6 Nutch文件系统工作架构
- 8. nutch应用
- 8.1 修改源码
- 8.2 插件机制---plugin
- 8.2.1 什么是plugin
- 8.2.2 使用plugin的好处
- 8.2.3 plugin工作原理
- 8.2.4 编写plugin
- 8.3 API接口
- 8.3.1使用Nutch API
- 8.3.2使用OpenSearch API
- 8.4 nutch的应用前景
- 附录一: nutch的相关网站
- 附录二: 参考文献
下载地址
-
用支付宝扫码支付人民币(1.00)元成功后,可见此资源下载密码。
- 注意:未登录或匿名下载,支付宝扫码支付后要人为记住下载密码!!当刷新页面,离开当前页面下载密码将不可见!!
- 注册的用户支付宝扫码支付一次后,会员可以永久查看此资源下载密码!!若支付成功后下载密码仍不可见,必须登录后即可见!! 前往登录
手机扫码浏览
支付帮助
登录的模态框未用
扫码前往手机浏览
《nutch入门》是一个开源Java实现的搜索引擎、它提供了我们运行自己的搜索引擎所需的全部工具、包括全文搜索和Web爬虫、同时花费很少就可以配置世界一流的Web搜索引擎
-
用支付宝-支付人民币(1.00)元成功后,可见此资源下载密码。
- 注意:未登录或匿名下载,支付宝-支付后要人为记住下载密码!!
- 提示:支付宝-支付一次后,会员可以永久查看此资源下载密码!!若支付成功后下载密码仍不可见,必须登录后即可见!!
点我登录
分享扫码
支付帮助
朋友手机扫该码
《nutch入门》是一个开源Java实现的搜索引擎、它提供了我们运行自己的搜索引擎所需的全部工具、包括全文搜索和Web爬虫、同时花费很少就可以配置世界一流的Web搜索引擎
注意:首次注册请用支付宝客户端登录
注意:然后进入用户中心必需修改成功后
- 百度网盘下载密码:
- 支助后可见下载密码
- 您的一份支助是对我们最大的支持!愿资源分享可以帮助更多需要的人!
- 友情提示:请不要在微信中操作支付!需要用手机浏览器或支付宝中完成支付!