Cdh5 on centos6

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
(参考)
 
(未显示1个用户的51个中间版本)
第1行: 第1行:
在 [[CentOS]] 7 上安装 [[Cloudera]] 5.4.x
+
在 [[CentOS]] 6上安装 [[Cloudera]] 5.4.x
  
 
安装CDH有三种方式:
 
安装CDH有三种方式:
*[http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cm_ig_install_path_a.html 通过 Cloudera Manager 自动安装]
+
*[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_install_path_a.html 安装路径 A — 通过 Cloudera Manager 自动安装 ]
*[http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cm_ig_install_path_b.html 使用 Cloudera Manager Packages 手动安装]
+
*[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_install_path_b.html 安装路径 B — 使用 Cloudera Manager 软件包手动安装]
*[http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cm_ig_install_path_c.html 使用 Cloudera Manager Tarballs 手动安装]
+
*[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_install_path_c.html 安装路径 C — 使用 Cloudera Manager 源代码手动安装]
  
若你没有安装 CentOS 7,可试着安装一个虚拟机
+
==[[Vagrant]]==
 +
若你没有安装 CentOS 6,可安装一个虚拟机。
 
  $ mkdir vm-install
 
  $ mkdir vm-install
 
  $ cd vm-install
 
  $ cd vm-install
  $ vagrant init chef/centos-7.0
+
  $ vagrant init chef/centos-centos-6.6
 
编辑 Vagrantfile
 
编辑 Vagrantfile
 
  Vagrant.configure(2) do |config|
 
  Vagrant.configure(2) do |config|
   config.vm.box = "chef/centos-7.0"
+
   config.vm.box = "chef/centos-6.6"
 
   config.vm.network "private_network", ip: "192.168.33.10"
 
   config.vm.network "private_network", ip: "192.168.33.10"
 
   config.vm.hostname = "node1"
 
   config.vm.hostname = "node1"
第18行: 第19行:
  
 
==Java==
 
==Java==
 +
JRE
 +
从 [http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html Oracle官网下载JRE]
 +
rpm -ivh  jre-8u51-linux-x64.rpm
 +
JDK
 
  yum install java-1.8.0-openjdk
 
  yum install java-1.8.0-openjdk
 
  yum install java-1.7.0-openjdk
 
  yum install java-1.7.0-openjdk
  
 
==PostgreSQL==
 
==PostgreSQL==
  yum install http://yum.postgresql.org/9.4/redhat/rhel-7-x86_64/pgdg-centos94-9.4-1.noarch.rpm
+
使用[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_embed_pstgrs.html 嵌入式 PostgreSQL 数据库] 注:只用于测试演示,不用于生产。
 +
yum install cloudera-manager-server-db-2
 +
service cloudera-scm-server-db start
 +
psql -s scm -U scm -p 7432
 +
编辑 /etc/cloudera-scm-server/db.properties
 +
com.cloudera.cmf.db.name=scm
 +
com.cloudera.cmf.db.user=scm
 +
com.cloudera.cmf.db.password=cloudera
 +
ROOT账户:cat /var/lib/cloudera-scm-server-db/data/generated_password.txt
 +
 
 +
重新数据库初始化: /usr/share/cmf/bin/initialize_embedded_db.sh /var/lib/cloudera-scm-server-db/data /var/log/cloudera-scm-server/
 +
 
 +
使用独立PostgreSQL数据库
 +
  yum install http://yum.postgresql.org/9.4/redhat/rhel-6-x86_64/pgdg-redhat94-9.4-1.noarch.rpm
 
  yum install postgresql94-server postgresql94-contrib
 
  yum install postgresql94-server postgresql94-contrib
  创建目录 /home/data/pg_data
+
  service postgresql-9.4 initdb
 +
chkconfig postgresql-9.4 on
 +
service postgresql-9.4 start
 +
若修改数据目录 /home/data/pg_data
 
  chown -R postgres:postgres /home/data/pg_data
 
  chown -R postgres:postgres /home/data/pg_data
 
  进入目录"/etc/sysconfig/pgsql",创建文件"postgresql-9.4"(文件名要和数据库的服务名一致)
 
  进入目录"/etc/sysconfig/pgsql",创建文件"postgresql-9.4"(文件名要和数据库的服务名一致)
 
  写入内容:PGDATA=/home/data/pg_data
 
  写入内容:PGDATA=/home/data/pg_data
/etc/init.d/postgresql-9.4 initdb
+
[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_extrnl_pstgrs.html 设置Cloudera Manager Server 的数据库]
  service postgresql-9.4 start
+
  $ sudo -u postgres psql
  chkconfig postgresql-9.4 on
+
  postgres=# CREATE ROLE scm LOGIN PASSWORD 'scm';
 +
postgres=# CREATE DATABASE scm OWNER scm ENCODING 'UTF8';
 +
创建适用于 Activity Monitor、Reports Manager、Hive Metastore、Sentry Server、Cloudera Navigator Audit Server 和 Cloudera Navigator Metadata Server 的数据库
 +
postgres=# CREATE ROLE user LOGIN PASSWORD 'password';
 +
postgres=# CREATE DATABASE databaseName OWNER user ENCODING 'UTF8'; 
 +
 
 +
角色 数据库  用户  密码
 +
Activity Monitor amon amon amon_password
 +
Reports Manager rman rman rman_password
 +
Hive Metastore Server metastore Hive hive_password
 +
Sentry Server sentry sentry sentry_password
 +
Cloudera Navigator Audit Server nav nav nav_password
 +
Cloudera Navigator Metadata Server navms navms navms_password
 +
 
 +
/usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm
  
 
==CM==
 
==CM==
 
  wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin
 
  wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin
 +
 +
Cloudera Manager Installer 会自动
 +
* 检测操作系统
 +
* 如果你没安装JRE会安装JRE     
 +
* 会安装配置一个嵌入PostgreSQL数据库         
 +
 +
修改 /etc/selinux/config 文件设置SELINUX=disabled
 +
 +
./cloudera-manager-installer.bin
 +
 +
此过程会下载安装600多M的 cloudera-manager-daemons // x86_64 5.4.3-1.cm543.p0.258.el6 cloudera-manager 638 M
 +
 +
因为可能下载的网站被墙,可使用[http://archive.cloudera.com/cm5/repo-as-tarball/ 本地存储库]。
 +
tar zxvf cm5.4.3-centos6.tar.gz
 +
chmod -R ugo+rX cm
 +
cd cm
 +
python -m SimpleHTTPServer 8900
 +
http://server:8900/cm
 +
创建
 +
/etc/yum.repos.d/myrepo.repo
 +
[myrepo]
 +
name=myrepo
 +
baseurl=http://hostname/cm/5
 +
enabled=1
 +
gpgcheck=0
 +
 +
./cloudera-manager-installer.bin --skip_repo_package=1
 +
 +
鉴于国内网络的特殊情况,建议采用安装路径 B和安装路径 C的方式手动安装
 +
 +
Cloudera 建议使用软件包管理工具安装产品,例如 yum 用于兼容 Red Hat 的系统,zypper 用于 SLES,apt-get 用于 Debian/Ubuntu。
 +
 +
所以最好的方式是在自己的内部和外部服务器上创建 Cloudera Manager 存储库
 +
 +
==CM Agnet==
 +
安装 Cloudera Manager Agent 软件包
 +
yum install cloudera-manager-agent cloudera-manager-daemons
 +
/etc/cloudera-scm-agent/config.ini,配置 Cloudera Manager Agent 以指向 Cloudera Manager Server:
 +
server_host
 +
server_port
 +
 +
==Cloudera Navigator==
 +
[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cn_iu_install_navigator.html Cloudera Navigator] 提供审核、元数据和安全组件的功能。
 +
 +
Cloudera Navigator 在 Cloudera Management Service 中实施为两个角色:Navigator Audit Server 和 Navigator Metadata Server。
 +
 +
==CDH==
 +
安装 CDH 和托管的服务软件包
 +
 +
获得[http://archive.cloudera.com/cdh5/one-click-install/redhat/6/x86_64/cloudera-cdh-5-0.x86_64.rpm 安装包]
 +
yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm
 +
添加存储库密钥(可选)
 +
rpm --import http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/RPM-GPG-KEY-cloudera
 +
安装 CDH 软件包
 +
yum clean all
 +
yum install avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs hbase-solr hive-hbase hive-webhcat hue-beeswax
 +
hue-hbase hue-impala hue-pig hue-plugins hue-rdbms hue-search hue-spark hue-sqoop hue-zookeeper impala impala-shell kite llama mahout
 +
oozie pig pig-udf-datafu search sentry solr-mapreduce spark-python sqoop sqoop2 whirr
 +
这一步,大概要安装 87 Package(s),总下载量: 1.9 G,安装大小: 2.5 G。
 +
 +
==启动==
 +
启动 Cloudera Manager Server
 +
sudo service cloudera-scm-server start
 +
启动 Cloudera Manager Agent
 +
sudo service cloudera-scm-agent start
 +
Web 浏览器访问
 +
http://localhost:7180
 +
用户名:admin密码:admin。
 +
 +
==仓库==
 +
/etc/yum.repos.d/cloudera-manager.repo
 +
http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-manager.repo
 +
 +
==Parcel==
 +
[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_parcels.html Parcel] 是一种包含 Cloudera Manager 使用的程序文件和其他元数据的二进制分配格式。Parcel 与软件包之间存在几点明显区别:
 +
* Parcel 是完全独立的,并且安装在受版本控制的目录中,这意味着可以同时安装给定 parcel 的多个版本。然后可以将这些其中一个已安装的版本指定为活动版本。对于软件包,一次只能安装一个软件包,因此已安装版本和活动版本之间并无区别。
 +
* Parcel 可安装在文件系统中的任何位置,默认情况下安装在 /opt/cloudera/parcels 中。而软件包安装在 /usr/lib 中。
 +
 +
Cloudera 建议使用 Parcel 来代替软件包进行安装,因为 Parcel 可以使服务二进制文件的部署和升级自动化,让 Cloudera Manager 轻松地管理群集上的软件。如果选择不使用 Parcel,当有软件更新可用时,将需要您手动升级群集中所有主机上的包,并会阻止您使用 Cloudera Manager 的滚动升级功能.
 +
 +
==安装组件==
 +
[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cdh_ig_cdh5_comp_install.html 安装 CDH 5 组件]
 +
 +
===Crunch===
 +
 +
===Flume===
 +
[[Apache Flume]] 是一种可靠的分布式日志系统,用于从许多不同源将大量日志数据收集、聚合和移动至集中的数据存储。
 +
yum install flume-ng
 +
yum install flume-ng-agent
 +
service flume-ng-agent start
 +
 +
===HBase===
 +
Cloudera 建议先以独立式模式[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cdh_ig_hbase_installation.html 安装 HBase],然后再尝试在整个集群中运行。
 +
yum install hbase-master
 +
service hbase-master start
 +
yum install hbase-thrift
 +
service hbase-thrift start
 +
yum install hbase-rest
 +
service hbase-rest start
 +
 +
===HCatalog===
 +
从 CDH 5 开始,HCatalog 是 Apache Hive 的一部分。
 +
yum install hive-webhcat-server
 +
service hive-webhcat-server start
 +
 +
===Hive===
 +
[[Apache Hive]] 是一个构建于 Hadoop 上的强大的数据仓库应用程序;它使您可以使用类似于 SQL 的语言 Hive QL 访问数据。
 +
yum install hive hive-metastore hive-server2 hive-hbase
 +
service hive-server2 start
 +
service hive-metastore start
 +
 +
===HttpFS===
 +
Apache Hadoop HttpFS 是一种向 HDFS 提供 HTTP 访问的服务。
 +
yum install hadoop-httpfs
 +
service hadoop-httpfs start
 +
 +
===Hue===
 +
[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cdh_ig_hue_installation.html 需要很多配置后才能正常使用]。
 +
yum install hue
 +
service hue start
 +
http://localhost:8888
 +
 +
===Impala===
 +
 +
===Mahout===
 +
[[Apache Mahout]] 是一种机器学习工具。
 +
yum install mahout
 +
 +
===Oozie===
 +
yum install oozie
 +
yum install oozie-client
 +
[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cdh_ig_oozie_configure.html 配置PostgreSQL]
 +
 +
===Pig===
 +
[[Apache Pig]] 使您可以使用称为 Pig Latin 的 Pig 的查询语言分析大量数据、Pig Latin 查询在 Hadoop 集群上以分布式方式运行。
 +
yum install pig
 +
pig
 +
grunt> ls
 +
grunt> A = LOAD 'input';
 +
grunt> B = FILTER A BY $0 MATCHES '.*dfs[a-z.]+.*';
 +
grunt> DUMP B;
 +
 +
===Search===
 +
Cloudera Search 提供交互式搜索和可扩展索引。
 +
yum install solr-server
 +
yum install solr-crunch
 +
要查询 HBase 中存储的数据,必须安装 Lily HBase Indexer 服务。
 +
yum install hbase-solr-indexer hbase-solr-doc
 +
安装 Hue 搜索
 +
yum install hue-search
 +
 +
===Sentry===
 +
 +
===Snappy===
 +
 +
===Spark===
 +
yum install spark-core spark-master spark-worker spark-history-server spark-python
 +
service spark-master start
 +
service spark-worker start
 +
http://http://192.168.1.33:18080/
 +
spark-shell
 +
spark-shell --master yarn // 将 Spark 应用程序提交至 YARN
 +
 +
===Sqoop 2===
 +
[[Apache Sqoop]] 2 专用于在 Hadoop 与关系数据库之间传输数据。
 +
yum install sqoop2-server
 +
yum install sqoop2-client
 +
service sqoop2-server start
 +
wget -qO - localhost:12000/sqoop/version
 +
sqoop2
 +
sqoop:000> set server --host localhost
 +
sqoop:000> show version --all
 +
 +
===Whirr===
 +
Apache Whirr 是一组用于运行云服务的库。您可以使用 Whirr 在 Amazon EC2 上运行 CDH 5 集群。
 +
yum install whirr
 +
whirr version
 +
 +
===ZooKeeper===
 +
[[Apache ZooKeeper]] 是一种高性能的协调服务,用于分布式应用程序。
 +
yum install zookeeper
 +
yum install zookeeper-server
 +
service zookeeper-server init
 +
service zookeeper-server start
 +
 +
==解决方案==
 +
[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_custom_installation.html Cloudera 托管两种可用来安装 Cloudera Manager 或 CDH 等产品的软件存储库] — parcel 存储库以及 RHEL、SLES RPM 和 Debian/Ubuntu 软件包存储库。
 +
 +
==图集==
 +
<gallery>
 +
image:cdh-supported-os.png|支持的OS
 +
image:cloudera-manager-install-phases.jpg|CM安装阶段
 +
image:cloudera-cdh-5.png|安装向导
 +
image:cloudera-manager-add-service.png|添加服务
 +
image:cloudera-manager-parcel.png|Parcel
 +
image:cloudera-manager-status.png|状态
 +
image:cloudera-manager-processes.png|进程
 +
</gallery>
 +
 
==参考==
 
==参考==
 
*[http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/installation.html Cloudera Installation and Upgrade]
 
*[http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/installation.html Cloudera Installation and Upgrade]
 +
*[http://blog.csdn.net/panguoyuan/article/details/25226107 Cloudera Manager CDH4的安装]
 
*[http://www.cnblogs.com/shudonghe/p/3142796.html 创建本地yum软件源,为本地Package安装Cloudera Manager、Cloudera Hadoop及Impala做准备]
 
*[http://www.cnblogs.com/shudonghe/p/3142796.html 创建本地yum软件源,为本地Package安装Cloudera Manager、Cloudera Hadoop及Impala做准备]
  
第41行: 第276行:
 
[[category:cloudera]]
 
[[category:cloudera]]
 
[[category:CentOS]]
 
[[category:CentOS]]
 +
[[category:huihoo]]

2017年7月2日 (日) 07:00的最后版本

CentOS 6上安装 Cloudera 5.4.x

安装CDH有三种方式:

目录

[编辑] Vagrant

若你没有安装 CentOS 6,可安装一个虚拟机。

$ mkdir vm-install
$ cd vm-install
$ vagrant init chef/centos-centos-6.6

编辑 Vagrantfile

Vagrant.configure(2) do |config|
  config.vm.box = "chef/centos-6.6"
  config.vm.network "private_network", ip: "192.168.33.10"
  config.vm.hostname = "node1"
end

[编辑] Java

JRE

Oracle官网下载JRE
rpm -ivh  jre-8u51-linux-x64.rpm

JDK

yum install java-1.8.0-openjdk
yum install java-1.7.0-openjdk

[编辑] PostgreSQL

使用嵌入式 PostgreSQL 数据库 注:只用于测试演示,不用于生产。

yum install cloudera-manager-server-db-2
service cloudera-scm-server-db start
psql -s scm -U scm -p 7432

编辑 /etc/cloudera-scm-server/db.properties

com.cloudera.cmf.db.name=scm
com.cloudera.cmf.db.user=scm
com.cloudera.cmf.db.password=cloudera

ROOT账户:cat /var/lib/cloudera-scm-server-db/data/generated_password.txt

重新数据库初始化: /usr/share/cmf/bin/initialize_embedded_db.sh /var/lib/cloudera-scm-server-db/data /var/log/cloudera-scm-server/

使用独立PostgreSQL数据库

yum install http://yum.postgresql.org/9.4/redhat/rhel-6-x86_64/pgdg-redhat94-9.4-1.noarch.rpm
yum install postgresql94-server postgresql94-contrib
service postgresql-9.4 initdb
chkconfig postgresql-9.4 on
service postgresql-9.4 start
若修改数据目录 /home/data/pg_data
chown -R postgres:postgres /home/data/pg_data
进入目录"/etc/sysconfig/pgsql",创建文件"postgresql-9.4"(文件名要和数据库的服务名一致)
写入内容:PGDATA=/home/data/pg_data

设置Cloudera Manager Server 的数据库

$ sudo -u postgres psql
postgres=# CREATE ROLE scm LOGIN PASSWORD 'scm';
postgres=# CREATE DATABASE scm OWNER scm ENCODING 'UTF8';

创建适用于 Activity Monitor、Reports Manager、Hive Metastore、Sentry Server、Cloudera Navigator Audit Server 和 Cloudera Navigator Metadata Server 的数据库

postgres=# CREATE ROLE user LOGIN PASSWORD 'password';
postgres=# CREATE DATABASE databaseName OWNER user ENCODING 'UTF8';  
角色 	数据库  	用户  	密码
Activity Monitor	amon	amon	amon_password
Reports Manager	rman	rman	rman_password
Hive Metastore Server	metastore	Hive	hive_password
Sentry Server	sentry	sentry	sentry_password
Cloudera Navigator Audit Server	nav	nav	nav_password
Cloudera Navigator Metadata Server	navms	navms	navms_password
/usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm

[编辑] CM

wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin

Cloudera Manager Installer 会自动

  • 检测操作系统
  • 如果你没安装JRE会安装JRE
  • 会安装配置一个嵌入PostgreSQL数据库

修改 /etc/selinux/config 文件设置SELINUX=disabled

./cloudera-manager-installer.bin

此过程会下载安装600多M的 cloudera-manager-daemons // x86_64 5.4.3-1.cm543.p0.258.el6 cloudera-manager 638 M

因为可能下载的网站被墙,可使用本地存储库

tar zxvf cm5.4.3-centos6.tar.gz
chmod -R ugo+rX cm
cd cm
python -m SimpleHTTPServer 8900
http://server:8900/cm

创建

/etc/yum.repos.d/myrepo.repo
[myrepo]
name=myrepo
baseurl=http://hostname/cm/5
enabled=1
gpgcheck=0 
./cloudera-manager-installer.bin --skip_repo_package=1

鉴于国内网络的特殊情况,建议采用安装路径 B和安装路径 C的方式手动安装

Cloudera 建议使用软件包管理工具安装产品,例如 yum 用于兼容 Red Hat 的系统,zypper 用于 SLES,apt-get 用于 Debian/Ubuntu。

所以最好的方式是在自己的内部和外部服务器上创建 Cloudera Manager 存储库

[编辑] CM Agnet

安装 Cloudera Manager Agent 软件包

yum install cloudera-manager-agent cloudera-manager-daemons

/etc/cloudera-scm-agent/config.ini,配置 Cloudera Manager Agent 以指向 Cloudera Manager Server:

server_host
server_port

[编辑] Cloudera Navigator

Cloudera Navigator 提供审核、元数据和安全组件的功能。

Cloudera Navigator 在 Cloudera Management Service 中实施为两个角色:Navigator Audit Server 和 Navigator Metadata Server。

[编辑] CDH

安装 CDH 和托管的服务软件包

获得安装包

yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm

添加存储库密钥(可选)

rpm --import http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/RPM-GPG-KEY-cloudera

安装 CDH 软件包

yum clean all
yum install avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs hbase-solr hive-hbase hive-webhcat hue-beeswax 
hue-hbase hue-impala hue-pig hue-plugins hue-rdbms hue-search hue-spark hue-sqoop hue-zookeeper impala impala-shell kite llama mahout 
oozie pig pig-udf-datafu search sentry solr-mapreduce spark-python sqoop sqoop2 whirr

这一步,大概要安装 87 Package(s),总下载量: 1.9 G,安装大小: 2.5 G。

[编辑] 启动

启动 Cloudera Manager Server

sudo service cloudera-scm-server start

启动 Cloudera Manager Agent

sudo service cloudera-scm-agent start

Web 浏览器访问

http://localhost:7180
用户名:admin密码:admin。

[编辑] 仓库

/etc/yum.repos.d/cloudera-manager.repo

http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-manager.repo

[编辑] Parcel

Parcel 是一种包含 Cloudera Manager 使用的程序文件和其他元数据的二进制分配格式。Parcel 与软件包之间存在几点明显区别:

  • Parcel 是完全独立的,并且安装在受版本控制的目录中,这意味着可以同时安装给定 parcel 的多个版本。然后可以将这些其中一个已安装的版本指定为活动版本。对于软件包,一次只能安装一个软件包,因此已安装版本和活动版本之间并无区别。
  • Parcel 可安装在文件系统中的任何位置,默认情况下安装在 /opt/cloudera/parcels 中。而软件包安装在 /usr/lib 中。

Cloudera 建议使用 Parcel 来代替软件包进行安装,因为 Parcel 可以使服务二进制文件的部署和升级自动化,让 Cloudera Manager 轻松地管理群集上的软件。如果选择不使用 Parcel,当有软件更新可用时,将需要您手动升级群集中所有主机上的包,并会阻止您使用 Cloudera Manager 的滚动升级功能.

[编辑] 安装组件

安装 CDH 5 组件

[编辑] Crunch

[编辑] Flume

Apache Flume 是一种可靠的分布式日志系统,用于从许多不同源将大量日志数据收集、聚合和移动至集中的数据存储。

yum install flume-ng
yum install flume-ng-agent
service flume-ng-agent start

[编辑] HBase

Cloudera 建议先以独立式模式安装 HBase,然后再尝试在整个集群中运行。

yum install hbase-master
service hbase-master start
yum install hbase-thrift
service hbase-thrift start
yum install hbase-rest
service hbase-rest start

[编辑] HCatalog

从 CDH 5 开始,HCatalog 是 Apache Hive 的一部分。

yum install hive-webhcat-server
service hive-webhcat-server start

[编辑] Hive

Apache Hive 是一个构建于 Hadoop 上的强大的数据仓库应用程序;它使您可以使用类似于 SQL 的语言 Hive QL 访问数据。

yum install hive hive-metastore hive-server2 hive-hbase
service hive-server2 start
service hive-metastore start

[编辑] HttpFS

Apache Hadoop HttpFS 是一种向 HDFS 提供 HTTP 访问的服务。

yum install hadoop-httpfs
service hadoop-httpfs start

[编辑] Hue

需要很多配置后才能正常使用

yum install hue
service hue start
http://localhost:8888

[编辑] Impala

[编辑] Mahout

Apache Mahout 是一种机器学习工具。

yum install mahout

[编辑] Oozie

yum install oozie
yum install oozie-client

配置PostgreSQL

[编辑] Pig

Apache Pig 使您可以使用称为 Pig Latin 的 Pig 的查询语言分析大量数据、Pig Latin 查询在 Hadoop 集群上以分布式方式运行。

yum install pig
pig
grunt> ls
grunt> A = LOAD 'input';
grunt> B = FILTER A BY $0 MATCHES '.*dfs[a-z.]+.*';
grunt> DUMP B;

[编辑] Search

Cloudera Search 提供交互式搜索和可扩展索引。

yum install solr-server
yum install solr-crunch

要查询 HBase 中存储的数据,必须安装 Lily HBase Indexer 服务。

yum install hbase-solr-indexer hbase-solr-doc

安装 Hue 搜索

yum install hue-search

[编辑] Sentry

[编辑] Snappy

[编辑] Spark

yum install spark-core spark-master spark-worker spark-history-server spark-python
service spark-master start
service spark-worker start
http://http://192.168.1.33:18080/
spark-shell
spark-shell --master yarn // 将 Spark 应用程序提交至 YARN

[编辑] Sqoop 2

Apache Sqoop 2 专用于在 Hadoop 与关系数据库之间传输数据。

yum install sqoop2-server
yum install sqoop2-client
service sqoop2-server start
wget -qO - localhost:12000/sqoop/version
sqoop2
sqoop:000> set server --host localhost
sqoop:000> show version --all

[编辑] Whirr

Apache Whirr 是一组用于运行云服务的库。您可以使用 Whirr 在 Amazon EC2 上运行 CDH 5 集群。

yum install whirr
whirr version

[编辑] ZooKeeper

Apache ZooKeeper 是一种高性能的协调服务,用于分布式应用程序。

yum install zookeeper
yum install zookeeper-server
service zookeeper-server init
service zookeeper-server start

[编辑] 解决方案

Cloudera 托管两种可用来安装 Cloudera Manager 或 CDH 等产品的软件存储库 — parcel 存储库以及 RHEL、SLES RPM 和 Debian/Ubuntu 软件包存储库。

[编辑] 图集

[编辑] 参考

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱