Search engine

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
(相关链接)
(链接)
 
(未显示1个用户的5个中间版本)
第68行: 第68行:
 
[[Image:wordID.jpg|thumb|right|搜索关键字处理流程]]
 
[[Image:wordID.jpg|thumb|right|搜索关键字处理流程]]
 
*[[Tesseract OCR]] - http://sourceforge.net/projects/tesseract-ocr
 
*[[Tesseract OCR]] - http://sourceforge.net/projects/tesseract-ocr
 +
*[https://www.opensemanticsearch.org/ Open Semantic Search]
 +
 
===Spider===
 
===Spider===
 
*[[Larbin]]
 
*[[Larbin]]
 
*[[OpenWebSpider]]
 
*[[OpenWebSpider]]
 
*[[Sphider]]
 
*[[Sphider]]
 +
*[http://www.bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/ Top 50 open source web crawlers for data mining]
 +
 
==Indexing==
 
==Indexing==
 
*[[Snowball]]
 
*[[Snowball]]
第108行: 第112行:
 
*[[XQEngine]](XML Query Engine) - http://xqengine.sourceforge.net/
 
*[[XQEngine]](XML Query Engine) - http://xqengine.sourceforge.net/
 
*[[Web-Harvest]]
 
*[[Web-Harvest]]
 +
*[[YaCy]]
 +
 
===Ruby===
 
===Ruby===
 
*[[Ferret]]
 
*[[Ferret]]
第133行: 第139行:
 
*[http://books.huihoo.org/introduction-to-information-retrieval/ Introduction to Information Retrieval]
 
*[http://books.huihoo.org/introduction-to-information-retrieval/ Introduction to Information Retrieval]
 
*[http://books.huihoo.org/modern-information-retrieval Modern Information Retrieval]
 
*[http://books.huihoo.org/modern-information-retrieval Modern Information Retrieval]
==相关链接==
+
==图集==
 +
<gallery>
 +
image:apertis-search-flow.png|Apertis搜索
 +
</gallery>
 +
 
 +
==链接==
 
*Search Engine Watch - http://searchenginewatch.com/
 
*Search Engine Watch - http://searchenginewatch.com/
 
*Search Tools - http://www.searchtools.com/
 
*Search Tools - http://www.searchtools.com/
第140行: 第151行:
 
*SearchTools.com:  http://www.searchtools.com/robots/ ,All About Search Indexing Robots and Spiders
 
*SearchTools.com:  http://www.searchtools.com/robots/ ,All About Search Indexing Robots and Spiders
 
*[http://www.opensearch.org OpenSearch] is a collection of simple formats for the sharing of search results.
 
*[http://www.opensearch.org OpenSearch] is a collection of simple formats for the sharing of search results.
 
+
*[http://www.infoq.com/cn/articles/recommendation-and-searchengine 推荐系统和搜索引擎的关系]
{{comment}}
+
  
 
[[category:search engine]]
 
[[category:search engine]]
 +
[[category:computer science]]

2022年8月9日 (二) 10:11的最后版本

"聚类" 是目前搜索引擎最热门的技术。

"聚类" 主要分为"搜索内容聚类"和"搜索结果排序聚类"

搜索内容聚类:指基于内容方面的聚类

搜索结果排序聚类:主要体现在查询结果的排序上

国内著名搜索引擎公司百度总裁李彦宏说:搜索引擎不是人人都能做的领域,进入的门槛比较高。

典型的搜索引擎系统架构图

搜索引擎的门槛主要是技术门槛,包括网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等,这些都是搜索引擎的门槛。

搜索引擎的策略都是采用服务器群集和分布式计算技术

经典文章: The Anatomy of a Large-Scale Hypertextual Web Search Engine

搜索互联网之外的秘密

目录

[编辑] 搜索原理

Wikipedia-35x35.png 您可以在Wikipedia上了解到此条目的英文信息 Search engine Thanks, Wikipedia.

主要做三个步骤:从互联网上抓取网页 → 建立索引数据库 → 在索引数据库中搜索排序。

从互联网上抓取网页——利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。建立索引数据库——由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序——当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

[编辑] 搜索市场

据业内分析,今后以百度、Google和雅虎为主的水平搜索的增长将趋缓,而垂直搜索(手机移动搜索)、论坛搜索、本地搜索等未来新兴搜索引擎市场将以30%左右的速度增长,到2010年规模将达到78亿元。

也就是说,水平搜索风光不再,而垂直搜索则方兴未艾,垂直搜索是搜索市场新的“蓝海”。据市场研究机构Kelsey Group预测,在未来5年内,仅美国国内地区搜索市场规模将达34亿美元。

[编辑] 搜索历史

[编辑] 搜索引擎

Wisenut System Architecture

[编辑] 开源项目

搜索关键字处理流程

[编辑] Spider

[编辑] Indexing

[编辑] C,C++

[编辑] Python

[编辑] Java

[编辑] Ruby

[编辑] PHP

[编辑] Perl

[编辑] 中文资源

[编辑] 相关文章

[编辑] Online Books

[编辑] 图集

[编辑] 链接

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱