Cdh5 on centos6

来自开放百科 - 灰狐
跳转到: 导航, 搜索

CentOS 6上安装 Cloudera 5.4.x

安装CDH有三种方式:

目录

Vagrant

若你没有安装 CentOS 6,可安装一个虚拟机。

$ mkdir vm-install
$ cd vm-install
$ vagrant init chef/centos-centos-6.6

编辑 Vagrantfile

Vagrant.configure(2) do |config|
  config.vm.box = "chef/centos-6.6"
  config.vm.network "private_network", ip: "192.168.33.10"
  config.vm.hostname = "node1"
end

Java

JRE

Oracle官网下载JRE
rpm -ivh  jre-8u51-linux-x64.rpm

JDK

yum install java-1.8.0-openjdk
yum install java-1.7.0-openjdk

PostgreSQL

使用嵌入式 PostgreSQL 数据库 注:只用于测试演示,不用于生产。

yum install cloudera-manager-server-db-2
service cloudera-scm-server-db start
psql -s scm -U scm -p 7432

编辑 /etc/cloudera-scm-server/db.properties

com.cloudera.cmf.db.name=scm
com.cloudera.cmf.db.user=scm
com.cloudera.cmf.db.password=cloudera

ROOT账户:cat /var/lib/cloudera-scm-server-db/data/generated_password.txt

重新数据库初始化: /usr/share/cmf/bin/initialize_embedded_db.sh /var/lib/cloudera-scm-server-db/data /var/log/cloudera-scm-server/

使用独立PostgreSQL数据库

yum install http://yum.postgresql.org/9.4/redhat/rhel-6-x86_64/pgdg-redhat94-9.4-1.noarch.rpm
yum install postgresql94-server postgresql94-contrib
service postgresql-9.4 initdb
chkconfig postgresql-9.4 on
service postgresql-9.4 start
若修改数据目录 /home/data/pg_data
chown -R postgres:postgres /home/data/pg_data
进入目录"/etc/sysconfig/pgsql",创建文件"postgresql-9.4"(文件名要和数据库的服务名一致)
写入内容:PGDATA=/home/data/pg_data

设置Cloudera Manager Server 的数据库

$ sudo -u postgres psql
postgres=# CREATE ROLE scm LOGIN PASSWORD 'scm';
postgres=# CREATE DATABASE scm OWNER scm ENCODING 'UTF8';

创建适用于 Activity Monitor、Reports Manager、Hive Metastore、Sentry Server、Cloudera Navigator Audit Server 和 Cloudera Navigator Metadata Server 的数据库

postgres=# CREATE ROLE user LOGIN PASSWORD 'password';
postgres=# CREATE DATABASE databaseName OWNER user ENCODING 'UTF8';  
角色 	数据库  	用户  	密码
Activity Monitor	amon	amon	amon_password
Reports Manager	rman	rman	rman_password
Hive Metastore Server	metastore	Hive	hive_password
Sentry Server	sentry	sentry	sentry_password
Cloudera Navigator Audit Server	nav	nav	nav_password
Cloudera Navigator Metadata Server	navms	navms	navms_password
/usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm

CM

wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin

Cloudera Manager Installer 会自动

  • 检测操作系统
  • 如果你没安装JRE会安装JRE
  • 会安装配置一个嵌入PostgreSQL数据库

修改 /etc/selinux/config 文件设置SELINUX=disabled

./cloudera-manager-installer.bin

此过程会下载安装600多M的 cloudera-manager-daemons // x86_64 5.4.3-1.cm543.p0.258.el6 cloudera-manager 638 M

因为可能下载的网站被墙,可使用本地存储库

tar zxvf cm5.4.3-centos6.tar.gz
chmod -R ugo+rX cm
cd cm
python -m SimpleHTTPServer 8900
http://server:8900/cm

创建

/etc/yum.repos.d/myrepo.repo
[myrepo]
name=myrepo
baseurl=http://hostname/cm/5
enabled=1
gpgcheck=0 
./cloudera-manager-installer.bin --skip_repo_package=1

鉴于国内网络的特殊情况,建议采用安装路径 B和安装路径 C的方式手动安装

Cloudera 建议使用软件包管理工具安装产品,例如 yum 用于兼容 Red Hat 的系统,zypper 用于 SLES,apt-get 用于 Debian/Ubuntu。

所以最好的方式是在自己的内部和外部服务器上创建 Cloudera Manager 存储库

CM Agnet

安装 Cloudera Manager Agent 软件包

yum install cloudera-manager-agent cloudera-manager-daemons

/etc/cloudera-scm-agent/config.ini,配置 Cloudera Manager Agent 以指向 Cloudera Manager Server:

server_host
server_port

Cloudera Navigator

Cloudera Navigator 提供审核、元数据和安全组件的功能。

Cloudera Navigator 在 Cloudera Management Service 中实施为两个角色:Navigator Audit Server 和 Navigator Metadata Server。

CDH

安装 CDH 和托管的服务软件包

获得安装包

yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm

添加存储库密钥(可选)

rpm --import http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/RPM-GPG-KEY-cloudera

安装 CDH 软件包

yum clean all
yum install avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs hbase-solr hive-hbase hive-webhcat hue-beeswax 
hue-hbase hue-impala hue-pig hue-plugins hue-rdbms hue-search hue-spark hue-sqoop hue-zookeeper impala impala-shell kite llama mahout 
oozie pig pig-udf-datafu search sentry solr-mapreduce spark-python sqoop sqoop2 whirr

这一步,大概要安装 87 Package(s),总下载量: 1.9 G,安装大小: 2.5 G。

启动

启动 Cloudera Manager Server

sudo service cloudera-scm-server start

启动 Cloudera Manager Agent

sudo service cloudera-scm-agent start

Web 浏览器访问

http://localhost:7180
用户名:admin密码:admin。

仓库

/etc/yum.repos.d/cloudera-manager.repo

http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-manager.repo

Parcel

Parcel 是一种包含 Cloudera Manager 使用的程序文件和其他元数据的二进制分配格式。Parcel 与软件包之间存在几点明显区别:

  • Parcel 是完全独立的,并且安装在受版本控制的目录中,这意味着可以同时安装给定 parcel 的多个版本。然后可以将这些其中一个已安装的版本指定为活动版本。对于软件包,一次只能安装一个软件包,因此已安装版本和活动版本之间并无区别。
  • Parcel 可安装在文件系统中的任何位置,默认情况下安装在 /opt/cloudera/parcels 中。而软件包安装在 /usr/lib 中。

Cloudera 建议使用 Parcel 来代替软件包进行安装,因为 Parcel 可以使服务二进制文件的部署和升级自动化,让 Cloudera Manager 轻松地管理群集上的软件。如果选择不使用 Parcel,当有软件更新可用时,将需要您手动升级群集中所有主机上的包,并会阻止您使用 Cloudera Manager 的滚动升级功能.

安装组件

安装 CDH 5 组件

Crunch

Flume

Apache Flume 是一种可靠的分布式日志系统,用于从许多不同源将大量日志数据收集、聚合和移动至集中的数据存储。

yum install flume-ng
yum install flume-ng-agent
service flume-ng-agent start

HBase

Cloudera 建议先以独立式模式安装 HBase,然后再尝试在整个集群中运行。

yum install hbase-master
service hbase-master start
yum install hbase-thrift
service hbase-thrift start
yum install hbase-rest
service hbase-rest start

HCatalog

从 CDH 5 开始,HCatalog 是 Apache Hive 的一部分。

yum install hive-webhcat-server
service hive-webhcat-server start

Hive

Apache Hive 是一个构建于 Hadoop 上的强大的数据仓库应用程序;它使您可以使用类似于 SQL 的语言 Hive QL 访问数据。

yum install hive hive-metastore hive-server2 hive-hbase
service hive-server2 start
service hive-metastore start

HttpFS

Apache Hadoop HttpFS 是一种向 HDFS 提供 HTTP 访问的服务。

yum install hadoop-httpfs
service hadoop-httpfs start

Hue

需要很多配置后才能正常使用

yum install hue
service hue start
http://localhost:8888

Impala

Mahout

Apache Mahout 是一种机器学习工具。

yum install mahout

Oozie

yum install oozie
yum install oozie-client

配置PostgreSQL

Pig

Apache Pig 使您可以使用称为 Pig Latin 的 Pig 的查询语言分析大量数据、Pig Latin 查询在 Hadoop 集群上以分布式方式运行。

yum install pig
pig
grunt> ls
grunt> A = LOAD 'input';
grunt> B = FILTER A BY $0 MATCHES '.*dfs[a-z.]+.*';
grunt> DUMP B;

Search

Cloudera Search 提供交互式搜索和可扩展索引。

yum install solr-server
yum install solr-crunch

要查询 HBase 中存储的数据,必须安装 Lily HBase Indexer 服务。

yum install hbase-solr-indexer hbase-solr-doc

安装 Hue 搜索

yum install hue-search

Sentry

Snappy

Spark

yum install spark-core spark-master spark-worker spark-history-server spark-python
service spark-master start
service spark-worker start
http://http://192.168.1.33:18080/
spark-shell
spark-shell --master yarn // 将 Spark 应用程序提交至 YARN

Sqoop 2

Apache Sqoop 2 专用于在 Hadoop 与关系数据库之间传输数据。

yum install sqoop2-server
yum install sqoop2-client
service sqoop2-server start
wget -qO - localhost:12000/sqoop/version
sqoop2
sqoop:000> set server --host localhost
sqoop:000> show version --all

Whirr

Apache Whirr 是一组用于运行云服务的库。您可以使用 Whirr 在 Amazon EC2 上运行 CDH 5 集群。

yum install whirr
whirr version

ZooKeeper

Apache ZooKeeper 是一种高性能的协调服务,用于分布式应用程序。

yum install zookeeper
yum install zookeeper-server
service zookeeper-server init
service zookeeper-server start

解决方案

Cloudera 托管两种可用来安装 Cloudera Manager 或 CDH 等产品的软件存储库 — parcel 存储库以及 RHEL、SLES RPM 和 Debian/Ubuntu 软件包存储库。

图集

参考

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱