Apache Nutch

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
(相关链接)
第22行: 第22行:
 
*Nutch1.7是一个基于HDFS的网络爬虫
 
*Nutch1.7是一个基于HDFS的网络爬虫
 
*Nutch2.2.1是一个基于Gora的网络爬虫
 
*Nutch2.2.1是一个基于Gora的网络爬虫
 
==链接==
 
*[http://nutch.apache.org/ Apache Nutch官网]
 
*[http://wiki.apache.org/nutch/ Nutch Wiki]
 
*http://wiki.media-style.com/display/nutchDocu/Home
 
*http://lucene.apache.org/hadoop/
 
  
 
==开发人员==
 
==开发人员==
第36行: 第30行:
 
[[Image:krugle_nutch.gif|right]]
 
[[Image:krugle_nutch.gif|right]]
 
[http://www.krugle.com/ Krugle]是一个建立在Nutch和 Lucene.基础上的,专门为程序员设计的搜索引擎帮助用户发现在线代码和技术信息。Krugle 的CEO Steve Larsen说:“没有 Nutch 和Lucene,我们不可能创建我们现在的搜索功能,也不可能拥有现在的速度……它们对于我们在短时间内解决技术问题极其重要。”
 
[http://www.krugle.com/ Krugle]是一个建立在Nutch和 Lucene.基础上的,专门为程序员设计的搜索引擎帮助用户发现在线代码和技术信息。Krugle 的CEO Steve Larsen说:“没有 Nutch 和Lucene,我们不可能创建我们现在的搜索功能,也不可能拥有现在的速度……它们对于我们在短时间内解决技术问题极其重要。”
 +
 +
==图集==
 +
<gallery>
 +
image:apache-nutch2-architecture.png|Nutch2框架
 +
</gallery>
 +
 +
==链接==
 +
*[http://nutch.apache.org/ Apache Nutch官网]
 +
*[http://wiki.apache.org/nutch/ Nutch Wiki]
 +
*http://wiki.media-style.com/display/nutchDocu/Home
 +
*http://lucene.apache.org/hadoop/
  
 
{{comment}}
 
{{comment}}

2015年7月19日 (日) 03:54的版本

Wikipedia-35x35.png 您可以在Wikipedia上了解到此条目的英文信息 Apache Nutch Thanks, Wikipedia.
Nutch-90x90.gif

Nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎.

尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.

Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

  • 每个月取几十亿网页
  • 为这些网页维护一个索引
  • 对索引文件进行每秒上千次的搜索
  • 提供高质量的搜索结果
  • 以最小的成本运作

目录

版本

Nutch 3大分支版本:

  • Nutch1.2是一个完整的搜索引擎
  • Nutch1.7是一个基于HDFS的网络爬虫
  • Nutch2.2.1是一个基于Gora的网络爬虫

开发人员

成功应用

Krugle nutch.gif

Krugle是一个建立在Nutch和 Lucene.基础上的,专门为程序员设计的搜索引擎帮助用户发现在线代码和技术信息。Krugle 的CEO Steve Larsen说:“没有 Nutch 和Lucene,我们不可能创建我们现在的搜索功能,也不可能拥有现在的速度……它们对于我们在短时间内解决技术问题极其重要。”

图集

链接

Comment-32x32.png

<discussion>characters_max=300</discussion>

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱