简介
MapReduce采用分而治之的思想,针对大规模的数据,采取一个主节点统一管理,分发给各个分节点,将所得结果汇总到一起,得到最终结果。
在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。
[……]

Read more

简介:
一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。

环境:
操作系统:CentOS 5.4
所需程序包:
jdk1.6.0_20.tgz
hadoop-1.1.2.tar.gz

操作步骤:
操作之前需要新建hadoop用户
#useradd hadoop
[……]

Read more