• A+
《nutch入门》是一个开源Java实现的搜索引擎、它提供了我们运行自己的搜索引擎所需的全部工具、包括全文搜索和Web爬虫、同时花费很少就可以配置世界一流的Web搜索引擎
  • 访问量:(1279)
  • 下载量:(1)
  • 上传时间:2024-03-28
  • 作者:李阳
下载格式: pdf。共61页。文件容量 :1.3M。
作者:李阳
1. nutch简介
1.1什么是nutch
1.2研究nutch的原因
1.3 nutch的目标
1.4 nutch VS lucene
2. nutch的安装与配置
2.1 JDK的安装与配置
2.2 nutch的安装与配置
2.3 tomcat的安装与配置
3. nutch初体验
3.1 爬行企业内部网
3.1.1 配置nutch
3.1.2 配置tomcat
3.1.3 执行抓取命令
3.1.4 测试结果
3.1.5 Intranet Recrawl
3.2 爬行全网
3.2.1 nutch数据集的基本组成
3.2.2 爬行"官方"网址
3.2.3 爬行中文网址
4. nutch基本原理分析
4.1 nutch的基本组成
4.2 nutch工作流程
5. nutch工作流程分析
5.1 爬虫
5.1.1 工作策略
5.1.2 工作流程分析
5.1.3 其它
5.2 索引
5.2.1 索引主要过程
5.2.2 工作流程分析
5.2.3 倒排索引(inverted index)
5.2.4其它
5.3 搜索
5.4 分析
5.5 nutch的其他一些特性
6. nutch分析方法和工具
6.1 Crawldb
6.2 Linkdb
6.3 Segments
6.4 Index
7. nutch分布式文件系统
7.1 概述
7.2 MapReduce
7.3 文件系统语法
7.4 文件系统设计
7.5 系统的可用性
7.6 Nutch文件系统工作架构
8. nutch应用
8.1 修改源码
8.2 插件机制---plugin
8.2.1 什么是plugin
8.2.2 使用plugin的好处
8.2.3 plugin工作原理
8.2.4 编写plugin
8.3 API接口
8.3.1使用Nutch API
8.3.2使用OpenSearch API
8.4 nutch的应用前景
附录一: nutch的相关网站
附录二: 参考文献
下载地址
用支付宝扫码支付人民币(1.00)元成功后,可见此资源下载密码。
注意:未登录或匿名下载,支付宝扫码支付后要人为记住下载密码!!当刷新页面,离开当前页面下载密码将不可见!!
注册的用户支付宝扫码支付一次后,会员可以永久查看此资源下载密码!!若支付成功后下载密码仍不可见,必须登录后即可见!!
前往登录
手机扫码浏览
支付帮助
用支付宝-支付人民币(1.00)元成功后,可见此资源下载密码。
注意:未登录或匿名下载,支付宝-支付后要人为记住下载密码!!
提示:支付宝-支付一次后,会员可以永久查看此资源下载密码!!若支付成功后下载密码仍不可见,必须登录后即可见!!
点我登录
分享扫码
支付帮助
百度网盘下载地址:
https://pan.baidu.com/s/1eOKZ9kXCKa30vNgxUj3T_A
百度网盘下载密码:
支助后可见下载密码
您的一份支助是对我们最大的支持!愿资源分享可以帮助更多需要的人!
友情提示:请不要在微信中操作支付!需要用手机浏览器或支付宝中完成支付!