欢迎大家赞助一杯啤酒🍺 我们准备了下酒菜:Formal mathematics/Isabelle/ML, Formal verification/Coq/ACL2, C++/F#/Lisp
Cdh5 on centos6
小 |
小 (→参考) |
||
(未显示1个用户的51个中间版本) | |||
第1行: | 第1行: | ||
− | 在 [[CentOS]] | + | 在 [[CentOS]] 6上安装 [[Cloudera]] 5.4.x |
安装CDH有三种方式: | 安装CDH有三种方式: | ||
− | *[http://www.cloudera.com/content/cloudera/ | + | *[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_install_path_a.html 安装路径 A — 通过 Cloudera Manager 自动安装 ] |
− | *[http://www.cloudera.com/content/cloudera/ | + | *[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_install_path_b.html 安装路径 B — 使用 Cloudera Manager 软件包手动安装] |
− | *[http://www.cloudera.com/content/cloudera/ | + | *[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_install_path_c.html 安装路径 C — 使用 Cloudera Manager 源代码手动安装] |
− | 若你没有安装 CentOS | + | ==[[Vagrant]]== |
+ | 若你没有安装 CentOS 6,可安装一个虚拟机。 | ||
$ mkdir vm-install | $ mkdir vm-install | ||
$ cd vm-install | $ cd vm-install | ||
− | $ vagrant init chef/centos- | + | $ vagrant init chef/centos-centos-6.6 |
编辑 Vagrantfile | 编辑 Vagrantfile | ||
Vagrant.configure(2) do |config| | Vagrant.configure(2) do |config| | ||
− | config.vm.box = "chef/centos- | + | config.vm.box = "chef/centos-6.6" |
config.vm.network "private_network", ip: "192.168.33.10" | config.vm.network "private_network", ip: "192.168.33.10" | ||
config.vm.hostname = "node1" | config.vm.hostname = "node1" | ||
第18行: | 第19行: | ||
==Java== | ==Java== | ||
+ | JRE | ||
+ | 从 [http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html Oracle官网下载JRE] | ||
+ | rpm -ivh jre-8u51-linux-x64.rpm | ||
+ | JDK | ||
yum install java-1.8.0-openjdk | yum install java-1.8.0-openjdk | ||
yum install java-1.7.0-openjdk | yum install java-1.7.0-openjdk | ||
==PostgreSQL== | ==PostgreSQL== | ||
− | yum install http://yum.postgresql.org/9.4/redhat/rhel- | + | 使用[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_embed_pstgrs.html 嵌入式 PostgreSQL 数据库] 注:只用于测试演示,不用于生产。 |
+ | yum install cloudera-manager-server-db-2 | ||
+ | service cloudera-scm-server-db start | ||
+ | psql -s scm -U scm -p 7432 | ||
+ | 编辑 /etc/cloudera-scm-server/db.properties | ||
+ | com.cloudera.cmf.db.name=scm | ||
+ | com.cloudera.cmf.db.user=scm | ||
+ | com.cloudera.cmf.db.password=cloudera | ||
+ | ROOT账户:cat /var/lib/cloudera-scm-server-db/data/generated_password.txt | ||
+ | |||
+ | 重新数据库初始化: /usr/share/cmf/bin/initialize_embedded_db.sh /var/lib/cloudera-scm-server-db/data /var/log/cloudera-scm-server/ | ||
+ | |||
+ | 使用独立PostgreSQL数据库 | ||
+ | yum install http://yum.postgresql.org/9.4/redhat/rhel-6-x86_64/pgdg-redhat94-9.4-1.noarch.rpm | ||
yum install postgresql94-server postgresql94-contrib | yum install postgresql94-server postgresql94-contrib | ||
− | + | service postgresql-9.4 initdb | |
+ | chkconfig postgresql-9.4 on | ||
+ | service postgresql-9.4 start | ||
+ | 若修改数据目录 /home/data/pg_data | ||
chown -R postgres:postgres /home/data/pg_data | chown -R postgres:postgres /home/data/pg_data | ||
进入目录"/etc/sysconfig/pgsql",创建文件"postgresql-9.4"(文件名要和数据库的服务名一致) | 进入目录"/etc/sysconfig/pgsql",创建文件"postgresql-9.4"(文件名要和数据库的服务名一致) | ||
写入内容:PGDATA=/home/data/pg_data | 写入内容:PGDATA=/home/data/pg_data | ||
− | + | [http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_extrnl_pstgrs.html 设置Cloudera Manager Server 的数据库] | |
− | + | $ sudo -u postgres psql | |
− | + | postgres=# CREATE ROLE scm LOGIN PASSWORD 'scm'; | |
+ | postgres=# CREATE DATABASE scm OWNER scm ENCODING 'UTF8'; | ||
+ | 创建适用于 Activity Monitor、Reports Manager、Hive Metastore、Sentry Server、Cloudera Navigator Audit Server 和 Cloudera Navigator Metadata Server 的数据库 | ||
+ | postgres=# CREATE ROLE user LOGIN PASSWORD 'password'; | ||
+ | postgres=# CREATE DATABASE databaseName OWNER user ENCODING 'UTF8'; | ||
+ | |||
+ | 角色 数据库 用户 密码 | ||
+ | Activity Monitor amon amon amon_password | ||
+ | Reports Manager rman rman rman_password | ||
+ | Hive Metastore Server metastore Hive hive_password | ||
+ | Sentry Server sentry sentry sentry_password | ||
+ | Cloudera Navigator Audit Server nav nav nav_password | ||
+ | Cloudera Navigator Metadata Server navms navms navms_password | ||
+ | |||
+ | /usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm | ||
==CM== | ==CM== | ||
wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin | wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin | ||
+ | |||
+ | Cloudera Manager Installer 会自动 | ||
+ | * 检测操作系统 | ||
+ | * 如果你没安装JRE会安装JRE | ||
+ | * 会安装配置一个嵌入PostgreSQL数据库 | ||
+ | |||
+ | 修改 /etc/selinux/config 文件设置SELINUX=disabled | ||
+ | |||
+ | ./cloudera-manager-installer.bin | ||
+ | |||
+ | 此过程会下载安装600多M的 cloudera-manager-daemons // x86_64 5.4.3-1.cm543.p0.258.el6 cloudera-manager 638 M | ||
+ | |||
+ | 因为可能下载的网站被墙,可使用[http://archive.cloudera.com/cm5/repo-as-tarball/ 本地存储库]。 | ||
+ | tar zxvf cm5.4.3-centos6.tar.gz | ||
+ | chmod -R ugo+rX cm | ||
+ | cd cm | ||
+ | python -m SimpleHTTPServer 8900 | ||
+ | http://server:8900/cm | ||
+ | 创建 | ||
+ | /etc/yum.repos.d/myrepo.repo | ||
+ | [myrepo] | ||
+ | name=myrepo | ||
+ | baseurl=http://hostname/cm/5 | ||
+ | enabled=1 | ||
+ | gpgcheck=0 | ||
+ | |||
+ | ./cloudera-manager-installer.bin --skip_repo_package=1 | ||
+ | |||
+ | 鉴于国内网络的特殊情况,建议采用安装路径 B和安装路径 C的方式手动安装 | ||
+ | |||
+ | Cloudera 建议使用软件包管理工具安装产品,例如 yum 用于兼容 Red Hat 的系统,zypper 用于 SLES,apt-get 用于 Debian/Ubuntu。 | ||
+ | |||
+ | 所以最好的方式是在自己的内部和外部服务器上创建 Cloudera Manager 存储库 | ||
+ | |||
+ | ==CM Agnet== | ||
+ | 安装 Cloudera Manager Agent 软件包 | ||
+ | yum install cloudera-manager-agent cloudera-manager-daemons | ||
+ | /etc/cloudera-scm-agent/config.ini,配置 Cloudera Manager Agent 以指向 Cloudera Manager Server: | ||
+ | server_host | ||
+ | server_port | ||
+ | |||
+ | ==Cloudera Navigator== | ||
+ | [http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cn_iu_install_navigator.html Cloudera Navigator] 提供审核、元数据和安全组件的功能。 | ||
+ | |||
+ | Cloudera Navigator 在 Cloudera Management Service 中实施为两个角色:Navigator Audit Server 和 Navigator Metadata Server。 | ||
+ | |||
+ | ==CDH== | ||
+ | 安装 CDH 和托管的服务软件包 | ||
+ | |||
+ | 获得[http://archive.cloudera.com/cdh5/one-click-install/redhat/6/x86_64/cloudera-cdh-5-0.x86_64.rpm 安装包] | ||
+ | yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm | ||
+ | 添加存储库密钥(可选) | ||
+ | rpm --import http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/RPM-GPG-KEY-cloudera | ||
+ | 安装 CDH 软件包 | ||
+ | yum clean all | ||
+ | yum install avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs hbase-solr hive-hbase hive-webhcat hue-beeswax | ||
+ | hue-hbase hue-impala hue-pig hue-plugins hue-rdbms hue-search hue-spark hue-sqoop hue-zookeeper impala impala-shell kite llama mahout | ||
+ | oozie pig pig-udf-datafu search sentry solr-mapreduce spark-python sqoop sqoop2 whirr | ||
+ | 这一步,大概要安装 87 Package(s),总下载量: 1.9 G,安装大小: 2.5 G。 | ||
+ | |||
+ | ==启动== | ||
+ | 启动 Cloudera Manager Server | ||
+ | sudo service cloudera-scm-server start | ||
+ | 启动 Cloudera Manager Agent | ||
+ | sudo service cloudera-scm-agent start | ||
+ | Web 浏览器访问 | ||
+ | http://localhost:7180 | ||
+ | 用户名:admin密码:admin。 | ||
+ | |||
+ | ==仓库== | ||
+ | /etc/yum.repos.d/cloudera-manager.repo | ||
+ | http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-manager.repo | ||
+ | |||
+ | ==Parcel== | ||
+ | [http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_parcels.html Parcel] 是一种包含 Cloudera Manager 使用的程序文件和其他元数据的二进制分配格式。Parcel 与软件包之间存在几点明显区别: | ||
+ | * Parcel 是完全独立的,并且安装在受版本控制的目录中,这意味着可以同时安装给定 parcel 的多个版本。然后可以将这些其中一个已安装的版本指定为活动版本。对于软件包,一次只能安装一个软件包,因此已安装版本和活动版本之间并无区别。 | ||
+ | * Parcel 可安装在文件系统中的任何位置,默认情况下安装在 /opt/cloudera/parcels 中。而软件包安装在 /usr/lib 中。 | ||
+ | |||
+ | Cloudera 建议使用 Parcel 来代替软件包进行安装,因为 Parcel 可以使服务二进制文件的部署和升级自动化,让 Cloudera Manager 轻松地管理群集上的软件。如果选择不使用 Parcel,当有软件更新可用时,将需要您手动升级群集中所有主机上的包,并会阻止您使用 Cloudera Manager 的滚动升级功能. | ||
+ | |||
+ | ==安装组件== | ||
+ | [http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cdh_ig_cdh5_comp_install.html 安装 CDH 5 组件] | ||
+ | |||
+ | ===Crunch=== | ||
+ | |||
+ | ===Flume=== | ||
+ | [[Apache Flume]] 是一种可靠的分布式日志系统,用于从许多不同源将大量日志数据收集、聚合和移动至集中的数据存储。 | ||
+ | yum install flume-ng | ||
+ | yum install flume-ng-agent | ||
+ | service flume-ng-agent start | ||
+ | |||
+ | ===HBase=== | ||
+ | Cloudera 建议先以独立式模式[http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cdh_ig_hbase_installation.html 安装 HBase],然后再尝试在整个集群中运行。 | ||
+ | yum install hbase-master | ||
+ | service hbase-master start | ||
+ | yum install hbase-thrift | ||
+ | service hbase-thrift start | ||
+ | yum install hbase-rest | ||
+ | service hbase-rest start | ||
+ | |||
+ | ===HCatalog=== | ||
+ | 从 CDH 5 开始,HCatalog 是 Apache Hive 的一部分。 | ||
+ | yum install hive-webhcat-server | ||
+ | service hive-webhcat-server start | ||
+ | |||
+ | ===Hive=== | ||
+ | [[Apache Hive]] 是一个构建于 Hadoop 上的强大的数据仓库应用程序;它使您可以使用类似于 SQL 的语言 Hive QL 访问数据。 | ||
+ | yum install hive hive-metastore hive-server2 hive-hbase | ||
+ | service hive-server2 start | ||
+ | service hive-metastore start | ||
+ | |||
+ | ===HttpFS=== | ||
+ | Apache Hadoop HttpFS 是一种向 HDFS 提供 HTTP 访问的服务。 | ||
+ | yum install hadoop-httpfs | ||
+ | service hadoop-httpfs start | ||
+ | |||
+ | ===Hue=== | ||
+ | [http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cdh_ig_hue_installation.html 需要很多配置后才能正常使用]。 | ||
+ | yum install hue | ||
+ | service hue start | ||
+ | http://localhost:8888 | ||
+ | |||
+ | ===Impala=== | ||
+ | |||
+ | ===Mahout=== | ||
+ | [[Apache Mahout]] 是一种机器学习工具。 | ||
+ | yum install mahout | ||
+ | |||
+ | ===Oozie=== | ||
+ | yum install oozie | ||
+ | yum install oozie-client | ||
+ | [http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cdh_ig_oozie_configure.html 配置PostgreSQL] | ||
+ | |||
+ | ===Pig=== | ||
+ | [[Apache Pig]] 使您可以使用称为 Pig Latin 的 Pig 的查询语言分析大量数据、Pig Latin 查询在 Hadoop 集群上以分布式方式运行。 | ||
+ | yum install pig | ||
+ | pig | ||
+ | grunt> ls | ||
+ | grunt> A = LOAD 'input'; | ||
+ | grunt> B = FILTER A BY $0 MATCHES '.*dfs[a-z.]+.*'; | ||
+ | grunt> DUMP B; | ||
+ | |||
+ | ===Search=== | ||
+ | Cloudera Search 提供交互式搜索和可扩展索引。 | ||
+ | yum install solr-server | ||
+ | yum install solr-crunch | ||
+ | 要查询 HBase 中存储的数据,必须安装 Lily HBase Indexer 服务。 | ||
+ | yum install hbase-solr-indexer hbase-solr-doc | ||
+ | 安装 Hue 搜索 | ||
+ | yum install hue-search | ||
+ | |||
+ | ===Sentry=== | ||
+ | |||
+ | ===Snappy=== | ||
+ | |||
+ | ===Spark=== | ||
+ | yum install spark-core spark-master spark-worker spark-history-server spark-python | ||
+ | service spark-master start | ||
+ | service spark-worker start | ||
+ | http://http://192.168.1.33:18080/ | ||
+ | spark-shell | ||
+ | spark-shell --master yarn // 将 Spark 应用程序提交至 YARN | ||
+ | |||
+ | ===Sqoop 2=== | ||
+ | [[Apache Sqoop]] 2 专用于在 Hadoop 与关系数据库之间传输数据。 | ||
+ | yum install sqoop2-server | ||
+ | yum install sqoop2-client | ||
+ | service sqoop2-server start | ||
+ | wget -qO - localhost:12000/sqoop/version | ||
+ | sqoop2 | ||
+ | sqoop:000> set server --host localhost | ||
+ | sqoop:000> show version --all | ||
+ | |||
+ | ===Whirr=== | ||
+ | Apache Whirr 是一组用于运行云服务的库。您可以使用 Whirr 在 Amazon EC2 上运行 CDH 5 集群。 | ||
+ | yum install whirr | ||
+ | whirr version | ||
+ | |||
+ | ===ZooKeeper=== | ||
+ | [[Apache ZooKeeper]] 是一种高性能的协调服务,用于分布式应用程序。 | ||
+ | yum install zookeeper | ||
+ | yum install zookeeper-server | ||
+ | service zookeeper-server init | ||
+ | service zookeeper-server start | ||
+ | |||
+ | ==解决方案== | ||
+ | [http://www.cloudera.com/content/cloudera/zh-CN/documentation/core/v5-3-x/topics/cm_ig_custom_installation.html Cloudera 托管两种可用来安装 Cloudera Manager 或 CDH 等产品的软件存储库] — parcel 存储库以及 RHEL、SLES RPM 和 Debian/Ubuntu 软件包存储库。 | ||
+ | |||
+ | ==图集== | ||
+ | <gallery> | ||
+ | image:cdh-supported-os.png|支持的OS | ||
+ | image:cloudera-manager-install-phases.jpg|CM安装阶段 | ||
+ | image:cloudera-cdh-5.png|安装向导 | ||
+ | image:cloudera-manager-add-service.png|添加服务 | ||
+ | image:cloudera-manager-parcel.png|Parcel | ||
+ | image:cloudera-manager-status.png|状态 | ||
+ | image:cloudera-manager-processes.png|进程 | ||
+ | </gallery> | ||
+ | |||
==参考== | ==参考== | ||
*[http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/installation.html Cloudera Installation and Upgrade] | *[http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/installation.html Cloudera Installation and Upgrade] | ||
+ | *[http://blog.csdn.net/panguoyuan/article/details/25226107 Cloudera Manager CDH4的安装] | ||
*[http://www.cnblogs.com/shudonghe/p/3142796.html 创建本地yum软件源,为本地Package安装Cloudera Manager、Cloudera Hadoop及Impala做准备] | *[http://www.cnblogs.com/shudonghe/p/3142796.html 创建本地yum软件源,为本地Package安装Cloudera Manager、Cloudera Hadoop及Impala做准备] | ||
第41行: | 第276行: | ||
[[category:cloudera]] | [[category:cloudera]] | ||
[[category:CentOS]] | [[category:CentOS]] | ||
+ | [[category:huihoo]] |
2017年7月2日 (日) 07:00的最后版本
安装CDH有三种方式:
- 安装路径 A — 通过 Cloudera Manager 自动安装
- 安装路径 B — 使用 Cloudera Manager 软件包手动安装
- 安装路径 C — 使用 Cloudera Manager 源代码手动安装
目录 |
[编辑] Vagrant
若你没有安装 CentOS 6,可安装一个虚拟机。
$ mkdir vm-install $ cd vm-install $ vagrant init chef/centos-centos-6.6
编辑 Vagrantfile
Vagrant.configure(2) do |config| config.vm.box = "chef/centos-6.6" config.vm.network "private_network", ip: "192.168.33.10" config.vm.hostname = "node1" end
[编辑] Java
JRE
从 Oracle官网下载JRE rpm -ivh jre-8u51-linux-x64.rpm
JDK
yum install java-1.8.0-openjdk yum install java-1.7.0-openjdk
[编辑] PostgreSQL
使用嵌入式 PostgreSQL 数据库 注:只用于测试演示,不用于生产。
yum install cloudera-manager-server-db-2 service cloudera-scm-server-db start psql -s scm -U scm -p 7432
编辑 /etc/cloudera-scm-server/db.properties
com.cloudera.cmf.db.name=scm com.cloudera.cmf.db.user=scm com.cloudera.cmf.db.password=cloudera
ROOT账户:cat /var/lib/cloudera-scm-server-db/data/generated_password.txt
重新数据库初始化: /usr/share/cmf/bin/initialize_embedded_db.sh /var/lib/cloudera-scm-server-db/data /var/log/cloudera-scm-server/
使用独立PostgreSQL数据库
yum install http://yum.postgresql.org/9.4/redhat/rhel-6-x86_64/pgdg-redhat94-9.4-1.noarch.rpm yum install postgresql94-server postgresql94-contrib service postgresql-9.4 initdb chkconfig postgresql-9.4 on service postgresql-9.4 start 若修改数据目录 /home/data/pg_data chown -R postgres:postgres /home/data/pg_data 进入目录"/etc/sysconfig/pgsql",创建文件"postgresql-9.4"(文件名要和数据库的服务名一致) 写入内容:PGDATA=/home/data/pg_data
设置Cloudera Manager Server 的数据库
$ sudo -u postgres psql postgres=# CREATE ROLE scm LOGIN PASSWORD 'scm'; postgres=# CREATE DATABASE scm OWNER scm ENCODING 'UTF8';
创建适用于 Activity Monitor、Reports Manager、Hive Metastore、Sentry Server、Cloudera Navigator Audit Server 和 Cloudera Navigator Metadata Server 的数据库
postgres=# CREATE ROLE user LOGIN PASSWORD 'password'; postgres=# CREATE DATABASE databaseName OWNER user ENCODING 'UTF8';
角色 数据库 用户 密码 Activity Monitor amon amon amon_password Reports Manager rman rman rman_password Hive Metastore Server metastore Hive hive_password Sentry Server sentry sentry sentry_password Cloudera Navigator Audit Server nav nav nav_password Cloudera Navigator Metadata Server navms navms navms_password
/usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm
[编辑] CM
wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin
Cloudera Manager Installer 会自动
- 检测操作系统
- 如果你没安装JRE会安装JRE
- 会安装配置一个嵌入PostgreSQL数据库
修改 /etc/selinux/config 文件设置SELINUX=disabled
./cloudera-manager-installer.bin
此过程会下载安装600多M的 cloudera-manager-daemons // x86_64 5.4.3-1.cm543.p0.258.el6 cloudera-manager 638 M
因为可能下载的网站被墙,可使用本地存储库。
tar zxvf cm5.4.3-centos6.tar.gz chmod -R ugo+rX cm cd cm python -m SimpleHTTPServer 8900 http://server:8900/cm
创建
/etc/yum.repos.d/myrepo.repo [myrepo] name=myrepo baseurl=http://hostname/cm/5 enabled=1 gpgcheck=0
./cloudera-manager-installer.bin --skip_repo_package=1
鉴于国内网络的特殊情况,建议采用安装路径 B和安装路径 C的方式手动安装
Cloudera 建议使用软件包管理工具安装产品,例如 yum 用于兼容 Red Hat 的系统,zypper 用于 SLES,apt-get 用于 Debian/Ubuntu。
所以最好的方式是在自己的内部和外部服务器上创建 Cloudera Manager 存储库
[编辑] CM Agnet
安装 Cloudera Manager Agent 软件包
yum install cloudera-manager-agent cloudera-manager-daemons
/etc/cloudera-scm-agent/config.ini,配置 Cloudera Manager Agent 以指向 Cloudera Manager Server:
server_host server_port
[编辑]
Cloudera Navigator 提供审核、元数据和安全组件的功能。
Cloudera Navigator 在 Cloudera Management Service 中实施为两个角色:Navigator Audit Server 和 Navigator Metadata Server。
[编辑] CDH
安装 CDH 和托管的服务软件包
获得安装包
yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm
添加存储库密钥(可选)
rpm --import http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/RPM-GPG-KEY-cloudera
安装 CDH 软件包
yum clean all yum install avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs hbase-solr hive-hbase hive-webhcat hue-beeswax hue-hbase hue-impala hue-pig hue-plugins hue-rdbms hue-search hue-spark hue-sqoop hue-zookeeper impala impala-shell kite llama mahout oozie pig pig-udf-datafu search sentry solr-mapreduce spark-python sqoop sqoop2 whirr
这一步,大概要安装 87 Package(s),总下载量: 1.9 G,安装大小: 2.5 G。
[编辑] 启动
启动 Cloudera Manager Server
sudo service cloudera-scm-server start
启动 Cloudera Manager Agent
sudo service cloudera-scm-agent start
Web 浏览器访问
http://localhost:7180 用户名:admin密码:admin。
[编辑] 仓库
/etc/yum.repos.d/cloudera-manager.repo
http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-manager.repo
[编辑] Parcel
Parcel 是一种包含 Cloudera Manager 使用的程序文件和其他元数据的二进制分配格式。Parcel 与软件包之间存在几点明显区别:
- Parcel 是完全独立的,并且安装在受版本控制的目录中,这意味着可以同时安装给定 parcel 的多个版本。然后可以将这些其中一个已安装的版本指定为活动版本。对于软件包,一次只能安装一个软件包,因此已安装版本和活动版本之间并无区别。
- Parcel 可安装在文件系统中的任何位置,默认情况下安装在 /opt/cloudera/parcels 中。而软件包安装在 /usr/lib 中。
Cloudera 建议使用 Parcel 来代替软件包进行安装,因为 Parcel 可以使服务二进制文件的部署和升级自动化,让 Cloudera Manager 轻松地管理群集上的软件。如果选择不使用 Parcel,当有软件更新可用时,将需要您手动升级群集中所有主机上的包,并会阻止您使用 Cloudera Manager 的滚动升级功能.
[编辑] 安装组件
[编辑] Crunch
[编辑] Flume
Apache Flume 是一种可靠的分布式日志系统,用于从许多不同源将大量日志数据收集、聚合和移动至集中的数据存储。
yum install flume-ng yum install flume-ng-agent service flume-ng-agent start
[编辑] HBase
Cloudera 建议先以独立式模式安装 HBase,然后再尝试在整个集群中运行。
yum install hbase-master service hbase-master start yum install hbase-thrift service hbase-thrift start yum install hbase-rest service hbase-rest start
[编辑] HCatalog
从 CDH 5 开始,HCatalog 是 Apache Hive 的一部分。
yum install hive-webhcat-server service hive-webhcat-server start
[编辑] Hive
Apache Hive 是一个构建于 Hadoop 上的强大的数据仓库应用程序;它使您可以使用类似于 SQL 的语言 Hive QL 访问数据。
yum install hive hive-metastore hive-server2 hive-hbase service hive-server2 start service hive-metastore start
[编辑] HttpFS
Apache Hadoop HttpFS 是一种向 HDFS 提供 HTTP 访问的服务。
yum install hadoop-httpfs service hadoop-httpfs start
[编辑] Hue
yum install hue service hue start http://localhost:8888
[编辑] Impala
[编辑] Mahout
Apache Mahout 是一种机器学习工具。
yum install mahout
[编辑] Oozie
yum install oozie yum install oozie-client
[编辑] Pig
Apache Pig 使您可以使用称为 Pig Latin 的 Pig 的查询语言分析大量数据、Pig Latin 查询在 Hadoop 集群上以分布式方式运行。
yum install pig pig grunt> ls grunt> A = LOAD 'input'; grunt> B = FILTER A BY $0 MATCHES '.*dfs[a-z.]+.*'; grunt> DUMP B;
[编辑] Search
Cloudera Search 提供交互式搜索和可扩展索引。
yum install solr-server yum install solr-crunch
要查询 HBase 中存储的数据,必须安装 Lily HBase Indexer 服务。
yum install hbase-solr-indexer hbase-solr-doc
安装 Hue 搜索
yum install hue-search
[编辑] Sentry
[编辑] Snappy
[编辑] Spark
yum install spark-core spark-master spark-worker spark-history-server spark-python service spark-master start service spark-worker start http://http://192.168.1.33:18080/ spark-shell spark-shell --master yarn // 将 Spark 应用程序提交至 YARN
[编辑] Sqoop 2
Apache Sqoop 2 专用于在 Hadoop 与关系数据库之间传输数据。
yum install sqoop2-server yum install sqoop2-client service sqoop2-server start wget -qO - localhost:12000/sqoop/version sqoop2 sqoop:000> set server --host localhost sqoop:000> show version --all
[编辑] Whirr
Apache Whirr 是一组用于运行云服务的库。您可以使用 Whirr 在 Amazon EC2 上运行 CDH 5 集群。
yum install whirr whirr version
[编辑] ZooKeeper
Apache ZooKeeper 是一种高性能的协调服务,用于分布式应用程序。
yum install zookeeper yum install zookeeper-server service zookeeper-server init service zookeeper-server start
[编辑] 解决方案
Cloudera 托管两种可用来安装 Cloudera Manager 或 CDH 等产品的软件存储库 — parcel 存储库以及 RHEL、SLES RPM 和 Debian/Ubuntu 软件包存储库。