Search Engine Technology

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
 
(相关链接)
 
(未显示1个用户的12个中间版本)
第1行: 第1行:
 +
搜索引擎的门槛主要是技术门槛,包括网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等,这些都是搜索引擎的门槛。
  
 +
搜索引擎的策略都是采用服务器群集和分布式计算技术。
  
 
==网页搜索引擎==
 
==网页搜索引擎==
第40行: 第42行:
 
*对海量日志信息进行各种统计分析
 
*对海量日志信息进行各种统计分析
 
*用户行为分析
 
*用户行为分析
*
 
  
==相关链接==
+
==Machine Learning==
*http://hr.baidu.com/job.php?job=160
+
[http://aima.cs.berkeley.edu/ai.html#learning AI on the Web: Machine Learning]
 +
*Machine learning refers to a system capable of the autonomous acquisition and integration of knowledge. This capacity to learn from experience, analytical observation, and other means, results in a system that can continuously self-improve and thereby offer increased efficiency and effectiveness.
 +
http://www.aaai.org/AITopics/html/machine.html
 +
==Google核心==
 +
*[http://cbcg.net/talks/googleinternals/index.html Google Internals]
 +
*[[Google File System]]
 +
*[[MapReduce]]
 +
*[[BigTable]]
 +
*[[Google Cluster]]
 +
*[[Chubby Distributed Lock Service]]
 +
*[[Sawzall]]
 +
*[[Google shipping container data center]]
 +
==Google核心的Clone==
 +
Google核心的Clone和对比技术
 +
*[[ZFS]]
 +
*[[Apache Hadoop]]
 +
*[[Hypertable]] and [[HBase]]
 +
 
 +
==链接==
 +
*http://hr.baidu.com/job.php?ct=1
 
*http://www.google.com/intl/zh-CN/jobs/
 
*http://www.google.com/intl/zh-CN/jobs/
 +
 +
[[category:search engine]]

2013年2月20日 (三) 04:04的最后版本

搜索引擎的门槛主要是技术门槛,包括网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等,这些都是搜索引擎的门槛。

搜索引擎的策略都是采用服务器群集和分布式计算技术。

目录

[编辑] 网页搜索引擎

网页搜索引擎各子系统的设计和实现可能涉及的内容:

  • 网页信息抽取、质量分析
  • 数据挖掘、用户行为分析
  • 分布式大规模网络服务设计
  • 高性能计算,实时海量数据处理
  • 相关性算法
  • 中文处理,新词挖掘

[编辑] 集群开发

  • 数百/数千台服务器在协同工作
  • 管理和调优数据中心的各种设备

这需要你了解服务器硬件架构和相关原理,能够对硬件和操作系统层面进行优化。

  • 测试和提高Linux内核的使用效率

这需要你熟悉linux内核,熟悉TCP/IP协议栈,熟悉路由交换技术。

  • 大规模集群的系统支持
  • 先进数据中心的集成支持
  • 一个跨越全国的分布式系统的网络性能
  • 先进的网络安全技术

[编辑] 机群运维

  • 网页搜索各个子系统的运维操作、服务监控、故障排查,以及紧急情况下的应急处理
  • 服务监控与自动运维系统或工具的设计与开发
  • 研究服务架构,发现潜在问题,对网页搜索系统的研发提出改进需求,提高系统的健壮性和效率
  • 对IDC、硬件、网络等资源进行规划和部署
  • 制定、整理和优化内部制度和流程,制定和改进应急预案,提高服务运行的质量
  • 对相关新技术保持敏锐感觉,调研和试验新的技术方向

[编辑] 基础设施

  • 挑战系统极限--研究与优化 linux 操作系统;
  • 挑战硬件性能极限--研究与定制服务器硬件系统;
  • 挑战大规模、高性能网络极限--研究与优化网络;
  • 挑战大规模网络环境、大服务流量情况下的网络、服务安全--研究与设计安全系统
  • 设计最适应自身的IDC--研究IDC各子系统;
  • 将最新研究成果,在最短的时间,应用到超大规模集群,接受亿万网民的考验!

[编辑] 数据分析

  • 对海量日志信息进行各种统计分析
  • 用户行为分析

[编辑] Machine Learning

AI on the Web: Machine Learning

  • Machine learning refers to a system capable of the autonomous acquisition and integration of knowledge. This capacity to learn from experience, analytical observation, and other means, results in a system that can continuously self-improve and thereby offer increased efficiency and effectiveness.

http://www.aaai.org/AITopics/html/machine.html

[编辑] Google核心

[编辑] Google核心的Clone

Google核心的Clone和对比技术

[编辑] 链接

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱