欢迎大家赞助一杯啤酒🍺 我们准备了下酒菜:Formal mathematics/Isabelle/ML, Formal verification/Coq/ACL2, C++/F#/Lisp
Cdh5 on centos6
安装CDH有三种方式:
- 安装路径 A — 通过 Cloudera Manager 自动安装
- 安装路径 B — 使用 Cloudera Manager 软件包手动安装
- 安装路径 C — 使用 Cloudera Manager 源代码手动安装
目录 |
Vagrant
若你没有安装 CentOS 6,可安装一个虚拟机。
$ mkdir vm-install $ cd vm-install $ vagrant init chef/centos-centos-6.6
编辑 Vagrantfile
Vagrant.configure(2) do |config| config.vm.box = "chef/centos-6.6" config.vm.network "private_network", ip: "192.168.33.10" config.vm.hostname = "node1" end
Java
JRE
从 Oracle官网下载JRE rpm -ivh jre-8u51-linux-x64.rpm
JDK
yum install java-1.8.0-openjdk yum install java-1.7.0-openjdk
PostgreSQL
使用嵌入式 PostgreSQL 数据库 注:只用于测试演示,不用于生产。
yum install cloudera-manager-server-db-2 service cloudera-scm-server-db start psql -s scm -U scm -p 7432
编辑 /etc/cloudera-scm-server/db.properties
com.cloudera.cmf.db.name=scm com.cloudera.cmf.db.user=scm com.cloudera.cmf.db.password=cloudera
ROOT账户:cat /var/lib/cloudera-scm-server-db/data/generated_password.txt
重新数据库初始化: /usr/share/cmf/bin/initialize_embedded_db.sh /var/lib/cloudera-scm-server-db/data /var/log/cloudera-scm-server/
使用独立PostgreSQL数据库
yum install http://yum.postgresql.org/9.4/redhat/rhel-6-x86_64/pgdg-redhat94-9.4-1.noarch.rpm yum install postgresql94-server postgresql94-contrib service postgresql-9.4 initdb chkconfig postgresql-9.4 on service postgresql-9.4 start 若修改数据目录 /home/data/pg_data chown -R postgres:postgres /home/data/pg_data 进入目录"/etc/sysconfig/pgsql",创建文件"postgresql-9.4"(文件名要和数据库的服务名一致) 写入内容:PGDATA=/home/data/pg_data
设置Cloudera Manager Server 的数据库
$ sudo -u postgres psql postgres=# CREATE ROLE scm LOGIN PASSWORD 'scm'; postgres=# CREATE DATABASE scm OWNER scm ENCODING 'UTF8';
创建适用于 Activity Monitor、Reports Manager、Hive Metastore、Sentry Server、Cloudera Navigator Audit Server 和 Cloudera Navigator Metadata Server 的数据库
postgres=# CREATE ROLE user LOGIN PASSWORD 'password'; postgres=# CREATE DATABASE databaseName OWNER user ENCODING 'UTF8';
角色 数据库 用户 密码 Activity Monitor amon amon amon_password Reports Manager rman rman rman_password Hive Metastore Server metastore Hive hive_password Sentry Server sentry sentry sentry_password Cloudera Navigator Audit Server nav nav nav_password Cloudera Navigator Metadata Server navms navms navms_password
/usr/share/cmf/schema/scm_prepare_database.sh postgresql scm scm scm
CM
wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin
Cloudera Manager Installer 会自动
- 检测操作系统
- 如果你没安装JRE会安装JRE
- 会安装配置一个嵌入PostgreSQL数据库
修改 /etc/selinux/config 文件设置SELINUX=disabled
./cloudera-manager-installer.bin
此过程会下载安装600多M的 cloudera-manager-daemons // x86_64 5.4.3-1.cm543.p0.258.el6 cloudera-manager 638 M
因为可能下载的网站被墙,可使用本地存储库。
tar zxvf cm5.4.3-centos6.tar.gz chmod -R ugo+rX cm cd cm python -m SimpleHTTPServer 8900 http://server:8900/cm
创建
/etc/yum.repos.d/myrepo.repo [myrepo] name=myrepo baseurl=http://hostname/cm/5 enabled=1 gpgcheck=0
./cloudera-manager-installer.bin --skip_repo_package=1
鉴于国内网络的特殊情况,建议采用安装路径 B和安装路径 C的方式手动安装
Cloudera 建议使用软件包管理工具安装产品,例如 yum 用于兼容 Red Hat 的系统,zypper 用于 SLES,apt-get 用于 Debian/Ubuntu。
所以最好的方式是在自己的内部和外部服务器上创建 Cloudera Manager 存储库
CM Agnet
安装 Cloudera Manager Agent 软件包
yum install cloudera-manager-agent cloudera-manager-daemons
/etc/cloudera-scm-agent/config.ini,配置 Cloudera Manager Agent 以指向 Cloudera Manager Server:
server_host server_port
Cloudera Navigator 提供审核、元数据和安全组件的功能。
Cloudera Navigator 在 Cloudera Management Service 中实施为两个角色:Navigator Audit Server 和 Navigator Metadata Server。
CDH
安装 CDH 和托管的服务软件包
获得安装包
yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm
添加存储库密钥(可选)
rpm --import http://archive.cloudera.com/cdh5/redhat/5/x86_64/cdh/RPM-GPG-KEY-cloudera
安装 CDH 软件包
yum clean all yum install avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs hbase-solr hive-hbase hive-webhcat hue-beeswax hue-hbase hue-impala hue-pig hue-plugins hue-rdbms hue-search hue-spark hue-sqoop hue-zookeeper impala impala-shell kite llama mahout oozie pig pig-udf-datafu search sentry solr-mapreduce spark-python sqoop sqoop2 whirr
这一步,大概要安装 87 Package(s),总下载量: 1.9 G,安装大小: 2.5 G。
启动
启动 Cloudera Manager Server
sudo service cloudera-scm-server start
启动 Cloudera Manager Agent
sudo service cloudera-scm-agent start
Web 浏览器访问
http://localhost:7180 用户名:admin密码:admin。
仓库
/etc/yum.repos.d/cloudera-manager.repo
http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/cloudera-manager.repo
Parcel
Parcel 是一种包含 Cloudera Manager 使用的程序文件和其他元数据的二进制分配格式。Parcel 与软件包之间存在几点明显区别:
- Parcel 是完全独立的,并且安装在受版本控制的目录中,这意味着可以同时安装给定 parcel 的多个版本。然后可以将这些其中一个已安装的版本指定为活动版本。对于软件包,一次只能安装一个软件包,因此已安装版本和活动版本之间并无区别。
- Parcel 可安装在文件系统中的任何位置,默认情况下安装在 /opt/cloudera/parcels 中。而软件包安装在 /usr/lib 中。
Cloudera 建议使用 Parcel 来代替软件包进行安装,因为 Parcel 可以使服务二进制文件的部署和升级自动化,让 Cloudera Manager 轻松地管理群集上的软件。如果选择不使用 Parcel,当有软件更新可用时,将需要您手动升级群集中所有主机上的包,并会阻止您使用 Cloudera Manager 的滚动升级功能.
安装组件
Crunch
Flume
Apache Flume 是一种可靠的分布式日志系统,用于从许多不同源将大量日志数据收集、聚合和移动至集中的数据存储。
yum install flume-ng yum install flume-ng-agent service flume-ng-agent start
HBase
Cloudera 建议先以独立式模式安装 HBase,然后再尝试在整个集群中运行。
yum install hbase-master service hbase-master start yum install hbase-thrift service hbase-thrift start yum install hbase-rest service hbase-rest start
HCatalog
从 CDH 5 开始,HCatalog 是 Apache Hive 的一部分。
yum install hive-webhcat-server service hive-webhcat-server start
Hive
Apache Hive 是一个构建于 Hadoop 上的强大的数据仓库应用程序;它使您可以使用类似于 SQL 的语言 Hive QL 访问数据。
yum install hive hive-metastore hive-server2 hive-hbase service hive-server2 start service hive-metastore start
HttpFS
Apache Hadoop HttpFS 是一种向 HDFS 提供 HTTP 访问的服务。
yum install hadoop-httpfs service hadoop-httpfs start
Hue
yum install hue service hue start http://localhost:8888
Impala
Mahout
Apache Mahout 是一种机器学习工具。
yum install mahout
Oozie
yum install oozie yum install oozie-client
Pig
Apache Pig 使您可以使用称为 Pig Latin 的 Pig 的查询语言分析大量数据、Pig Latin 查询在 Hadoop 集群上以分布式方式运行。
yum install pig pig grunt> ls grunt> A = LOAD 'input'; grunt> B = FILTER A BY $0 MATCHES '.*dfs[a-z.]+.*'; grunt> DUMP B;
Search
Cloudera Search 提供交互式搜索和可扩展索引。
yum install solr-server yum install solr-crunch
要查询 HBase 中存储的数据,必须安装 Lily HBase Indexer 服务。
yum install hbase-solr-indexer hbase-solr-doc
安装 Hue 搜索
yum install hue-search
Sentry
Snappy
Spark
yum install spark-core spark-master spark-worker spark-history-server spark-python service spark-master start service spark-worker start http://http://192.168.1.33:18080/ spark-shell spark-shell --master yarn // 将 Spark 应用程序提交至 YARN
Sqoop 2
Apache Sqoop 2 专用于在 Hadoop 与关系数据库之间传输数据。
yum install sqoop2-server yum install sqoop2-client service sqoop2-server start wget -qO - localhost:12000/sqoop/version sqoop2 sqoop:000> set server --host localhost sqoop:000> show version --all
Whirr
Apache Whirr 是一组用于运行云服务的库。您可以使用 Whirr 在 Amazon EC2 上运行 CDH 5 集群。
yum install whirr whirr version
ZooKeeper
Apache ZooKeeper 是一种高性能的协调服务,用于分布式应用程序。
yum install zookeeper yum install zookeeper-server service zookeeper-server init service zookeeper-server start
解决方案
Cloudera 托管两种可用来安装 Cloudera Manager 或 CDH 等产品的软件存储库 — parcel 存储库以及 RHEL、SLES RPM 和 Debian/Ubuntu 软件包存储库。