Apache Spark

2018年10月17日 (三) 00:18的版本

Apache Spark：新一代大数据解决方案

简介

Spark 是用Scala和Java语言编写的一套分布式内存计算系统，它的核心抽象模型是 RDD (Resilient Distributed Dataset，弹性分布式数据集)，围绕 RDD 构建了一系列分布式 API，可以直接对数据集进行分布式处理。

相对于 MapReduce 上的批量计算、迭代计算，以及基于 Apache Hive 的 SQL 查询，Spark 可以带来一到两个数量级的性能提升。

Spark在广告领域有很多的成功应用。

版本

2.3
2.2
2.1
2.0

Apache Hive

Hive on Spark

Spark on HBase

使用 HDFS 内存层实现 RDD 共享
Spark SQL on HBase: Spark SQL/DataFrame access to NoSQL data in Apache HBase

Spark on YARN

通过Spark on YARN的方式与Apache Hadoop方便地共享集群的存储功能和计算资源。

Cassandra

elasticsearch

ElasticSearch Spark Integration

REST API

Spark 1.4引入REST API

http://localhost:4040/api/v1/applications

机器学习

MLbase
Apache Mahout使用Spark作为后端
Weka on Spark
KeystoneML
SparkNet
CoCoA
Splash Project for parallel stochastic learning
Deeplearning4j
H2O Spark
TensorFlowOnSpark
Yahoo CaffeOnSpark
Arimo Tensorflow On Spark

项目

Awesome Spark

Spark的相关项目和生态系统: Supplemental Spark Projects
spark-jobserver
SparkR
Apache Mesos
Alluxio
FiloDB
Apache Zeppelin, Spark Notebook
SnappyData: OLTP + OLAP Database built on Apache Spark
BlinkDB
Spindle
SpatialSpark
Apache Toree
Apache SystemML
Oryx
SnappyData OLTP + OLAP Database built on Apache Spark Efficient State Management With Spark 2.0 And Scale-Out Databases
Livy an Open Source REST Service for Spark

服务商

Spark背后的商业公司：Databricks，同时提供Spark服务提供商Certified Spark Distribution官方认证。
Stratio Platform: The first "pure Spark" platform with 50% fewer components and operational complexity.
IBM的思路是将Spark视为数据分析的操作系统。

用户

课程

文档

图集

Spark
Streaming
堆栈
Spark和MapReduce
Spark集群
伯克利数据分析堆栈BDAS
百度Spark One

链接

Apache Spark官网
Spark @ GitHub
Spark发源地：AMPLab
UC Berkeley Big Data AMP Camp 大会资料
Spark开放文档
Spark Summit
Spark Packages
腾讯大数据之计算新贵Spark，广点通是最早使用Spark的应用之一
Spark在腾讯数据仓库TDW的应用
《Spark快速数据处理》作者 Holden Karau 曾就职于谷歌、亚马逊、微软和Foursquare等公司，对开源情有独钟，参与了许多开源项目，如Linux内核无线驱动、Android程序监控、搜索引擎等，对存储系统、推荐系统、搜索分类等都有深入研究。
CSDN.NET Spark技术社区
理解Spark的核心Resilient Distributed Datasets(RDD)
七牛技术总监陈超：记Spark Summit China 2015
七牛是如何搞定每天500亿条日志的
39 Machine Learning Libraries for Spark

@@ 第1行： / 第1行： @@
 Apache Spark：新一代大数据解决方案
-Spark 是用[[Scala]]语言编写的一套分布式内存计算系统，它的核心抽象模型是 RDD (Resilient Distributed Dataset，弹性分布式数据集)，围绕 RDD 构建了一系列分布式 API，可以直接对数据集进行分布式处理。
+==简介==
+Spark 是用[[Scala]]和[[Java]]语言编写的一套分布式内存计算系统，它的核心抽象模型是 RDD (Resilient Distributed Dataset，弹性分布式数据集)，围绕 RDD 构建了一系列分布式 API，可以直接对数据集进行分布式处理。
 相对于 [[MapReduce]] 上的批量计算、迭代计算，以及基于 [[Apache Hive]] 的 SQL 查询，Spark 可以带来一到两个数量级的性能提升。