Apache Hadoop

2007年2月10日 (六) 00:00的版本

Hadoop是一个复制了Google文件系统分类功能和对于大数据量计算的Google MapReduce 演算系统的应用程序构架。

对于一个大文件，hadoop把它切割成一个个大小为64Mblock。这些block是以普通文件的形式存储在各个节点上的。默认情况下，每个block都会有3个副本。通过此种方式，来达到数据安全。就算一台机器down掉，系统能够检测，自动选择一个新的节点复制一份。

在hadoop中，有一个master node和多个data node。客户端执行查询之类的操作，只需与master node（也就是平时所说的元数据服务器）交互，获得需要的文件操作信息，然后与data node通信，进行实际数据的传输。

master（比如down掉）在启动时，通过重新执行原先的操作来构建文件系统的结构树。由于结构树是在内存中直接存在的，因此查询操作效率很高

HDFS Architecture

核心：Hadoop Distributed File System

Data Replication

@@ 第7行： / 第7行： @@
 master（比如down掉）在启动时，通过重新执行原先的操作来构建文件系统的结构树。由于结构树是在内存中直接存在的，因此查询操作效率很高
+[[Image:hdfsarchitecture.png|thumb|right|HDFS Architecture]]
+核心：Hadoop Distributed File System
+[[Image:hdfsdatanodes.png|thumb|right|Data Replication]]
 http://lucene.apache.org/hadoop/