Apache Hadoop

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
第1行: 第1行:
Hadoop是一个复制了Google文件系统分类功能和对于大数据量计算的Google [[MapReduce]] 演算系统的应用程序构架。
+
Hadoop是一个软件平台,可以让你很容易地开发和运行处理海量数据的应用……Hadoop是MapReduce 的实现,它使用了Hadoop分布式文件系统(HDFS)。MapReduce将应用切分为许多小任务块去执行。出于保证可靠性的考虑,HDFS会为数据块创建多个副本,并放置在群的计算节点中,[[MapReduce]]就在数据副本存放的地方进行处理
  
 
对于一个大文件,hadoop把它切割成一个个大小为64Mblock。这些block是以普通文件的形式存储在各个节点上的。
 
对于一个大文件,hadoop把它切割成一个个大小为64Mblock。这些block是以普通文件的形式存储在各个节点上的。
第10行: 第10行:
 
核心:[[Hadoop Distributed File System]]
 
核心:[[Hadoop Distributed File System]]
 
[[Image:hdfsdatanodes.png|thumb|right|Data Replication]]
 
[[Image:hdfsdatanodes.png|thumb|right|Data Replication]]
http://lucene.apache.org/hadoop/
+
 
 +
==Links==
 +
*华盛顿大学也从那时开始了一个以Hadoop为基础的分布式计算的课程 - http://docs.huihoo.com/google/mapreduce/
 +
*http://lucene.apache.org/hadoop/
 +
*Yahoo's Hadoop Support - http://developer.yahoo.net/blog/archives/2007/07/yahoo-hadoop.html
 +
*类似Google构架的开源项目Hadoop近获社区关注 - http://www.infoq.com/cn/news/2007/08/hadoop-momentum
 +
*用Hadoop搭建分布式存储和分布式运算集群 - http://www.zhongzichang.com/archives/83
 +
*Hadoop to run on EC2 - http://wiki.apache.org/lucene-hadoop/AmazonEC2
 +
*Run Your Own Google Style Computing Cluster with Hadoop and Amazon EC2 - http://www.infoq.com/news/2006/11/hadoop-ec2

2007年9月13日 (四) 19:24的版本

Hadoop是一个软件平台,可以让你很容易地开发和运行处理海量数据的应用……Hadoop是MapReduce 的实现,它使用了Hadoop分布式文件系统(HDFS)。MapReduce将应用切分为许多小任务块去执行。出于保证可靠性的考虑,HDFS会为数据块创建多个副本,并放置在群的计算节点中,MapReduce就在数据副本存放的地方进行处理

对于一个大文件,hadoop把它切割成一个个大小为64Mblock。这些block是以普通文件的形式存储在各个节点上的。 默认情况下,每个block都会有3个副本。通过此种方式,来达到数据安全。就算一台机器down掉,系统能够检测,自动选择一个新的节点复制一份。

在hadoop中,有一个master node和多个data node。客户端执行查询之类的操作,只需与master node(也就是平时所说的元数据服务器)交互,获得需要的文件操作信息,然后与data node通信,进行实际数据的传输。

master(比如down掉)在启动时,通过重新执行原先的操作来构建文件系统的结构树。由于结构树是在内存中直接存在的,因此查询操作效率很高

HDFS Architecture

核心:Hadoop Distributed File System

Data Replication

Links

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱