D3

2017年8月21日 (一) 01:48的版本

D3

含义

D3：Data, Deep Learning, IDE // 取其中的三个D

D3也表示以Data为中心的软件架构和开发模式。

D3 is a Platform for Data.

愿景

普适的大数据和人工智能，AI on every device everywhere.

Build Your Own Data Cloud.

路线图

路线一：

做Python和数据分析发行版 D3 Analysis Platform(DAP)，类似Anaconda。
Anaconda D3 Anaconda Platform (DAP) + PyData + scikit-learn + Keras conda install -c omnia keras=0.3.2

路线二：

以Hortonworks为大数据基石
基于Deeplearning4j、H2O、Scala和Apache Spark构建JVM生态的D3解决方案：Deep learning on HDP
以数据为中心的编程Clojure和分析平台Metabase，Clojure is about Data, Scala is about Types, Java is about Objects.
Yahoo CaffeOnSpark
通过Apache Bigtop分发D3

路线三：

HPCC是Hadoop外的另一种选择。
整合TensorFlow, MXNet, PaddlePaddle等深度学习框架和机器学习库。
C++语言核心驱动大数据和人工智能基础设施。
支持Python等尽可能多的外部接口语言。

路线四：D3.NET

D3.NET

基于.NET的大数据和机器学习解决方案。

组成

D3 Studio
D3 Server
D3 HDP

工具

D3 Studio insprie by RapidMiner Studio
Anaconda + Jupyter is the new front end for data science and AI.
打造成类似MATLAB 机器学习和神经网络平台，基于Octave构建。
D3 weka 数据挖掘工具包

业务框架

网络爬虫、搜索引擎、自然语言处理提供的数据收集和数据挖掘服务。用elasticsearch驱动这一业务，它与Apache Hadoop有深度整合提供Python客户端 DSL 且有丰富的开源项目和商业模式。
将大数据和人工智能服务更好的支持业务发展，通过业务框架提供这一支撑。
Mars微信官方的跨平台跨业务的终端基础组件可作为基础参考。WeUI 为微信 Web 服务量身设计。

基础设施

数据

开放数据
通过scrapy等工具爬取更多数据

搜索引擎

信息检索

Apache Lucene、Apache Solr和Elasticsearch是我们在信息检索领域的工具集和兴趣所在。

数据科学

D3 orange 为数据挖掘提供一个更好用的机器学习软件包，而不总是SPSS。
D3 pentaho 数据集成、数据挖掘、大数据分析、商业智能解决方案。
Weka: Machine learning software to solve data mining problems

实践

PyPI PyPA Conda数据分析和包治理

领域

电商零售业
爬虫和搜索解决方案 Search as a Service
自然语言处理 // 让D3更好的理解Web
计算广告
金融服务
计算机视觉：Caffe2、DeepVC
自动驾驶汽车
区块链数据库和区块链数据市场

>>>更多行业解决方案

运营

IPython Jupyter
Apache Ambari Operational Best Practices Workshop
Hue
Apache Zeppelin
Apache NiFi
Apache Metron
H2O Flow
Kettle & Talend
Apache Kylin OLAP on Hadoop
基于Eclipse的各种分析和运营工具：XMind

商业软件

图集

大数据

链接

GrowingIO 技术栈是 Scala, Play, Spark, Kafka, HBase, ElasticSearch

@@ 第2行： / 第2行： @@
 ==含义==
-D3：Big Data, Deep Learning, IDE // 取其中的三个D
+D3：Data, Deep Learning, IDE // 取其中的三个D
 D3也表示以Data为中心的软件架构和开发模式。
+D3 is a Platform for Data.
 ==愿景==
-为[[big data|大数据]]和[[artificial intelligence|人工智能]]提供整体解决方案。
+普适的[[big data|大数据]]和[[artificial intelligence|人工智能]]，AI on every device everywhere.
-打造成类似[[MATLAB]][[Machine_learning|机器学习]]和[[Artificial neural network|神经网络]]平台，基于[[GNU_Octave|Octave]]构建。
+Build Your Own Data Cloud.
 ==路线图==
 路线一：
+*做Python和数据分析发行版 D3 Analysis Platform(DAP)，类似Anaconda。
+*[[Anaconda python|Anaconda]] D3 Anaconda Platform (DAP) + [https://pydata.org/ PyData] + [[scikit-learn]] + [[Keras]] [https://anaconda.org/omnia/keras conda install -c omnia keras=0.3.2]
+路线二：
 *以[[Hortonworks]]为大数据基石
 *基于[[Deeplearning4j]]、[[H2O]]、[[Scala]]和[[Apache Spark]]构建[[Java virtual machine|JVM]]生态的D3解决方案：[[Deep learning on HDP]]
@@ 第18行： / 第24行： @@
 *Yahoo [https://github.com/yahoo/CaffeOnSpark CaffeOnSpark]
 *通过[[Apache Bigtop]]分发D3
-路线二：
+路线三：
 *[[HPCC]]是[[Apache Hadoop|Hadoop]]外的另一种选择。
 *整合[[TensorFlow]], [[MXNet]], [[PaddlePaddle]]等深度学习框架和机器学习库。
 *[[C++]]语言核心驱动大数据和人工智能基础设施。
 *支持[[Python]]等尽可能多的外部接口语言。
-路线三：
+[[文件:pydata.png|right]]
-*[[Anaconda python|Anaconda]]
 路线四：D3.NET
@@ 第33行： / 第39行： @@
 ==组成==
-基础设施
+*D3 Studio
-*[[Deep learning on HDP]] [http://docs.huihoo.com/hortonworks/deep-learning-with-hortonworks-and-apache-spark.pdf Deep Learning on HDP]
+*D3 Server
-*[[HDP on OpenStack]]
+*D3 HDP
+工具
+*D3 Studio insprie by [https://github.com/rapidminer/rapidminer-studio RapidMiner Studio]
+*[[Anaconda python|Anaconda]] + [[Jupyter]] is the new front end for data science and AI.
+*打造成类似[[MATLAB]][[Machine_learning|机器学习]]和[[Artificial neural network|神经网络]]平台，基于[[GNU_Octave|Octave]]构建。
+*D3 [[weka]] 数据挖掘工具包
 业务框架
+*[[Web crawler|网络爬虫]]、[[Search engine|搜索引擎]]、[[Natural language processing|自然语言处理]]提供的数据收集和数据挖掘服务。用[[elasticsearch]]驱动这一业务，它与[[Apache Hadoop]]有[https://github.com/elastic/elasticsearch-hadoop 深度整合] 提供[https://github.com/elastic/elasticsearch-py Python客户端] [https://github.com/elastic/elasticsearch-dsl-py DSL] 且有丰富的开源项目和商业模式。
 *将大数据和人工智能服务更好的支持业务发展，通过业务框架提供这一支撑。
-*[https://github.com/Tencent/mars Mars]微信官方的跨平台跨业务的终端基础组件可作为基础参考。
+*[https://github.com/Tencent/mars Mars]微信官方的跨平台跨业务的终端基础组件可作为基础参考。[https://github.com/Tencent/weui/ WeUI] 为微信 Web 服务量身设计。
+基础设施
+*[[Deep learning on HDP]] [http://docs.huihoo.com/hortonworks/deep-learning-with-hortonworks-and-apache-spark.pdf Deep Learning on HDP]
+*[[HDP on OpenStack]]
 ==数据==
@@ 第45行： / 第62行： @@
 *通过[[scrapy]]等工具爬取更多数据
-==数据挖掘==
+==搜索引擎==
-[[Weka]]: [[Machine learning]] software to solve [[data mining]] problems
+信息检索
+*[[Apache Lucene]]、[[Apache Solr]]和[[Elasticsearch]]是我们在信息检索领域的工具集和兴趣所在。
-D3 Weka 为数据挖掘提供一个更好用的机器学习软件包，而不总是[[SPSS]]。
+==[[data science|数据科学]]==
+*D3 [[orange]] 为数据挖掘提供一个更好用的机器学习软件包，而不总是[[SPSS]]。
+*D3 [[pentaho]] 数据集成、数据挖掘、大数据分析、商业智能解决方案。
+*[[Weka]]: [[Machine learning]] software to solve [[data mining]] problems
-[[Pentaho]]
+==实践==
+*[https://pypi.python.org/pypi PyPI] [https://github.com/pypa PyPA] [https://github.com/conda Conda]数据分析和包治理
 ==领域==
 *[[E3.NET|电商零售业]]
+*爬虫和搜索解决方案 Search as a Service
+*[[Natural language processing|自然语言处理]] // 让D3更好的理解Web
 *[[计算广告]]
 *[[Financial technology|金融服务]]
 *[[Computer_vision|计算机视觉]]：[[Caffe]]2、[[DeepVC]]
 *[[Autonomous car|自动驾驶汽车]]
+*[[BigchainDB|区块链数据库]]和[[Blockchain|区块链]]数据市场
 [[Hortonworks#.E8.A1.8C.E4.B8.9A.E8.A7.A3.E5.86.B3.E6.96.B9.E6.A1.88|>>>更多行业解决方案]]
 ==运营==
+*[[IPython]] [[Jupyter]]
 *[[Apache Ambari]] [http://docs.huihoo.com/hortonworks/operational-best-practices-workshop.pdf Operational Best Practices Workshop]
 *[[Hue]]
@@ 第67行： / 第93行： @@
 *[[Apache Metron]]
 *[[H2O]] Flow
-*[[Kettle]]
+*[[Kettle]] & [[Talend]]
 *[[Apache Kylin]] [[OLAP]] on Hadoop
 *基于[[Eclipse]]的各种分析和运营工具：[[XMind]]
+==商业软件==
+*[[SAS]]
+*[[SPSS]]
 ==图集==
+<gallery>
+image:bigdata-v1.png|大数据
+</gallery>
 ==链接==
+*[https://www.growingio.com GrowingIO] 技术栈是 [[Scala]], [[play framework|Play]], [[Apache Spark|Spark]], [[Apache Kafka|Kafka]], [[Apache HBase|HBase]], [[ElasticSearch]]
 [[category:big data]]

D3

2017年8月21日 (一) 01:48的版本

目录

含义

愿景

路线图

D3.NET

组成

数据

搜索引擎

数据科学

实践

领域

运营

商业软件

图集

链接

个人工具

名字空间

变换

查看

操作

搜索

导航

工具箱