Apache Hadoop

Hadoop是一个软件平台，可以让你很容易地开发和运行处理海量数据的应用……Hadoop是MapReduce 的实现，它使用了Hadoop分布式文件系统（HDFS）。MapReduce将应用切分为许多小任务块去执行。出于保证可靠性的考虑，HDFS会为数据块创建多个副本，并放置在群的计算节点中，MapReduce就在数据副本存放的地方进行处理

对于一个大文件，hadoop把它切割成一个个大小为64Mblock。这些block是以普通文件的形式存储在各个节点上的。默认情况下，每个block都会有3个副本。通过此种方式，来达到数据安全。就算一台机器down掉，系统能够检测，自动选择一个新的节点复制一份。

在hadoop中，有一个master node和多个data node。客户端执行查询之类的操作，只需与master node（也就是平时所说的元数据服务器）交互，获得需要的文件操作信息，然后与data node通信，进行实际数据的传输。

master（比如down掉）在启动时，通过重新执行原先的操作来构建文件系统的结构树。由于结构树是在内存中直接存在的，因此查询操作效率很高