D3

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
(数据挖掘)
(搜索引擎)
(未显示1个用户的86个中间版本)
第2行: 第2行:
  
 
==含义==
 
==含义==
D3:Big Data, Deep Learning, IDE // 取其中的三个D
+
D3:Data, Database, Deep Learning // 取其中的三个D
  
 
D3也表示以Data为中心的软件架构和开发模式。
 
D3也表示以Data为中心的软件架构和开发模式。
 +
 +
D3 is a Platform for Data.
  
 
==愿景==
 
==愿景==
[[big data|大数据]]和[[artificial intelligence|人工智能]]提供整体解决方案。
+
普适的[[big data|大数据]]和[[artificial intelligence|人工智能]],AI on every device everywhere.
  
打造成类似[[MATLAB]][[Machine_learning|机器学习]]和[[Artificial neural network|神经网络]]平台,基于[[GNU_Octave|Octave]]构建。
+
Build Your Own Data Cloud.
  
 
==路线图==
 
==路线图==
 
路线一:
 
路线一:
 +
*基于[[Erlang]]数据库构建,Riak as a Foundation + [[Redis]] for Low Latency + [[Apache Spark|Spark]] for Analytics。(默认)
 +
*[http://docs.huihoo.com/erlang/conference/euc2015/From-Concept-to-Reality-Solving-Enterprise-Challenges.pdf From Concept to Reality Solving Enterprise Challenges]
 +
 +
路线二:
 +
*做Python和数据分析发行版 D3 Analysis Platform(DAP),类似Anaconda。
 +
*[[Anaconda python|Anaconda]] D3 Anaconda Platform (DAP) + [https://pydata.org/ PyData] + [[scikit-learn]] + [[Keras]] [https://anaconda.org/omnia/keras conda install -c omnia keras=0.3.2]
 +
 +
路线三:
 
*以[[Hortonworks]]为大数据基石
 
*以[[Hortonworks]]为大数据基石
 
*基于[[Deeplearning4j]]、[[H2O]]、[[Scala]]和[[Apache Spark]]构建[[Java virtual machine|JVM]]生态的D3解决方案:[[Deep learning on HDP]]
 
*基于[[Deeplearning4j]]、[[H2O]]、[[Scala]]和[[Apache Spark]]构建[[Java virtual machine|JVM]]生态的D3解决方案:[[Deep learning on HDP]]
第18行: 第28行:
 
*Yahoo [https://github.com/yahoo/CaffeOnSpark CaffeOnSpark]
 
*Yahoo [https://github.com/yahoo/CaffeOnSpark CaffeOnSpark]
 
*通过[[Apache Bigtop]]分发D3
 
*通过[[Apache Bigtop]]分发D3
路线二:
+
 
 +
路线四:
 
*[[HPCC]]是[[Apache Hadoop|Hadoop]]外的另一种选择。
 
*[[HPCC]]是[[Apache Hadoop|Hadoop]]外的另一种选择。
 
*整合[[TensorFlow]], [[MXNet]], [[PaddlePaddle]]等深度学习框架和机器学习库。
 
*整合[[TensorFlow]], [[MXNet]], [[PaddlePaddle]]等深度学习框架和机器学习库。
 
*[[C++]]语言核心驱动大数据和人工智能基础设施。
 
*[[C++]]语言核心驱动大数据和人工智能基础设施。
 
*支持[[Python]]等尽可能多的外部接口语言。
 
*支持[[Python]]等尽可能多的外部接口语言。
路线三:D3.NET
+
[[文件:pydata.png|right]]
 +
 
 +
==堆栈==
 +
D3软件堆栈:[[SMACK堆栈]]
 +
 
 +
==服务==
 +
[[灰狐数据]]: Huihoo Analytics
  
 
==D3.NET==
 
==D3.NET==
第31行: 第48行:
  
 
==组成==
 
==组成==
 +
*D3 Studio
 +
*D3 Server
 +
*D3 HDP
 +
*D3 Database
 +
 +
工具
 +
*D3 Studio based on [[KNIME]] insprie by [[Metabase]] and [https://github.com/rapidminer/rapidminer-studio RapidMiner Studio]
 +
*[[Anaconda python|Anaconda]] + [[Jupyter]] is the new front end for data science and AI.
 +
*打造成类似[[MATLAB]][[Machine_learning|机器学习]]和[[Artificial neural network|神经网络]]平台,基于[[GNU_Octave|Octave]]构建。
 +
*De [[orange]] 数据挖掘工具包
 +
*D3 [[weka]] 数据挖掘工具包
 +
 +
业务框架
 +
*[[Web crawler|网络爬虫]]、[[Search engine|搜索引擎]]、[[Natural language processing|自然语言处理]]提供的数据收集和数据挖掘服务。用[[elasticsearch]]驱动这一业务,它与[[Apache Hadoop]]有[https://github.com/elastic/elasticsearch-hadoop 深度整合] 提供[https://github.com/elastic/elasticsearch-py Python客户端] [https://github.com/elastic/elasticsearch-dsl-py DSL] 且有丰富的开源项目和商业模式。
 +
*将大数据和人工智能服务更好的支持业务发展,通过业务框架提供这一支撑。
 +
*[https://github.com/Tencent/mars Mars]微信官方的跨平台跨业务的终端基础组件可作为基础参考。[https://github.com/Tencent/weui/ WeUI] 为微信 Web 服务量身设计。
 +
 
基础设施
 
基础设施
 +
*[[PostgreSQL]] DBaaS, [https://github.com/citusdata/citus Citus] Multi-tenant database SaaS, [[OpenStack/trove|OpenStack DBaaS (Trove)]] 数据库即服务,跟进[[Amazon Aurora]]。
 
*[[Deep learning on HDP]] [http://docs.huihoo.com/hortonworks/deep-learning-with-hortonworks-and-apache-spark.pdf Deep Learning on HDP]
 
*[[Deep learning on HDP]] [http://docs.huihoo.com/hortonworks/deep-learning-with-hortonworks-and-apache-spark.pdf Deep Learning on HDP]
 
*[[HDP on OpenStack]]
 
*[[HDP on OpenStack]]
  
业务框架
+
==数据==
*将大数据和人工智能服务更好的支持业务发展,通过业务框架提供这一支撑。
+
*[[Open data|开放数据]]
*[https://github.com/Tencent/mars Mars]微信官方的跨平台跨业务的终端基础组件可作为基础参考。
+
*通过[[scrapy]]等工具爬取更多数据
  
==数据挖掘==
+
==数据库==
[[Weka]]: [[Machine learning]] software to solve [[data mining]] problems
+
Multi-model is the future,以下是D3数据库路线图:
  
D3 Weka 为数据挖掘提供一个更好用的机器学习软件包,而不总是[[SPSS]]
+
D3 database基于[[Riak]]构建和分发:
 +
*D3 KV
 +
*D3 TS
 +
*D3 S2
  
[[Pentaho]]
+
D3 Studio管理工具,基于[[Robo 3T]]构建,支持[[MongoDB]]、[[MariaDB]]、[[PostgreSQL]]、[[ArangoDB]]等数据库。
 +
 
 +
D3 PostgreSQL分发版,[[PostgreSQL]] as a Service,PSaaS。
 +
 
 +
D3 [[ArangoDB]]多模型(Multi-model)数据库,Apache v2。
 +
 
 +
数据库集群:
 +
*D3 Cluster based on [[Vitess MySQL Cluster]]
 +
*D3 Cluster for MariaDB (容器集群)
 +
*D3 Cluster for PostgreSQL (容器集群)
 +
*D3 Cluster for Cassandra (容器集群)
 +
*D3 MariaDB Cluster
 +
*D3 PostgreSQL Cluster
 +
*D3 ArangoDB Cluster
 +
 
 +
==数据库容器==
 +
容器持久化
 +
 
 +
==搜索引擎==
 +
信息检索
 +
*[[Apache Lucene]]、[[Apache Solr]]和[[Elasticsearch]]是我们在信息检索领域的工具集和兴趣所在。
 +
 
 +
==[[data science|数据科学]]==
 +
*D3 [[orange]] 为数据挖掘提供一个更好用的机器学习软件包,而不总是[[SPSS]]。
 +
*D3 [[pentaho]] 数据集成、数据挖掘、大数据分析、商业智能解决方案。
 +
*[[Weka]]: [[Machine learning]] software to solve [[data mining]] problems
 +
 
 +
==实践==
 +
*[https://pypi.python.org/pypi PyPI] [https://github.com/pypa PyPA] [https://github.com/conda Conda]数据分析和包治理
  
 
==领域==
 
==领域==
 
*[[E3.NET|电商零售业]]
 
*[[E3.NET|电商零售业]]
 +
*爬虫和搜索解决方案 Search as a Service
 +
*[[Natural language processing|自然语言处理]] // 让D3更好的理解Web
 
*[[计算广告]]
 
*[[计算广告]]
*[[Financial technology|金融服务]]
+
*[[Financial technology|金融服务/金融科技]]
 
*[[Computer_vision|计算机视觉]]:[[Caffe]]2、[[DeepVC]]
 
*[[Computer_vision|计算机视觉]]:[[Caffe]]2、[[DeepVC]]
 
*[[Autonomous car|自动驾驶汽车]]
 
*[[Autonomous car|自动驾驶汽车]]
 +
*[[BigchainDB|区块链数据库]]和[[Blockchain|区块链]]数据市场
 
[[Hortonworks#.E8.A1.8C.E4.B8.9A.E8.A7.A3.E5.86.B3.E6.96.B9.E6.A1.88|>>>更多行业解决方案]]
 
[[Hortonworks#.E8.A1.8C.E4.B8.9A.E8.A7.A3.E5.86.B3.E6.96.B9.E6.A1.88|>>>更多行业解决方案]]
  
 
==运营==
 
==运营==
 +
*[[IPython]] [[Jupyter]]
 
*[[Apache Ambari]] [http://docs.huihoo.com/hortonworks/operational-best-practices-workshop.pdf Operational Best Practices Workshop]  
 
*[[Apache Ambari]] [http://docs.huihoo.com/hortonworks/operational-best-practices-workshop.pdf Operational Best Practices Workshop]  
 
*[[Hue]]
 
*[[Hue]]
第61行: 第131行:
 
*[[Apache Metron]]
 
*[[Apache Metron]]
 
*[[H2O]] Flow
 
*[[H2O]] Flow
 +
*[[Kettle]] & [[Talend]]
 +
*[[Apache Kylin]] [[OLAP]] on Hadoop
 +
*基于[[Eclipse]]的各种分析和运营工具:[[XMind]]
 +
 +
==商业软件==
 +
*[[SAS]]
 +
*[[SPSS]]
  
 
==图集==
 
==图集==
 +
<gallery>
 +
image:Anaconda-Distribution.png|Anaconda Distribution
 +
image:bigdata-v1.png|大数据
 +
image:pnda-console.png|PNDA
 +
image:FDIO-Integrations.png|快数据
 +
image:aiven-io.png|Aiven
 +
image:Basho-data-platform.png|Basho数据平台
 +
image:gekko-mongodb.png|比特币交易数据
 +
image:apache-madlib-architecture.png|MADlib架构
 +
</gallery>
  
 
==链接==
 
==链接==
 +
*[https://www.growingio.com GrowingIO] 技术栈是 [[Scala]], [[play framework|Play]], [[Apache Spark|Spark]], [[Apache Kafka|Kafka]], [[Apache HBase|HBase]], [[ElasticSearch]]
 +
*[https://www.analysys.cn/analysis/133/detail/1001275/ Lambda架构已死,去ETL化的IOTA才是未来]
  
 
[[category:big data]]
 
[[category:big data]]
 +
[[category:fast data]]
 
[[category:artificial intelligence]]
 
[[category:artificial intelligence]]
 
[[category:deep learning]]
 
[[category:deep learning]]

2018年4月28日 (六) 12:20的版本

D3

目录

含义

D3:Data, Database, Deep Learning // 取其中的三个D

D3也表示以Data为中心的软件架构和开发模式。

D3 is a Platform for Data.

愿景

普适的大数据人工智能,AI on every device everywhere.

Build Your Own Data Cloud.

路线图

路线一:

路线二:

路线三:

路线四:

  • HPCCHadoop外的另一种选择。
  • 整合TensorFlow, MXNet, PaddlePaddle等深度学习框架和机器学习库。
  • C++语言核心驱动大数据和人工智能基础设施。
  • 支持Python等尽可能多的外部接口语言。
Pydata.png

堆栈

D3软件堆栈:SMACK堆栈

服务

灰狐数据: Huihoo Analytics

D3.NET

基于.NET的大数据和机器学习解决方案。

组成

  • D3 Studio
  • D3 Server
  • D3 HDP
  • D3 Database

工具

业务框架

基础设施

数据

数据库

Multi-model is the future,以下是D3数据库路线图:

D3 database基于Riak构建和分发:

  • D3 KV
  • D3 TS
  • D3 S2

D3 Studio管理工具,基于Robo 3T构建,支持MongoDBMariaDBPostgreSQLArangoDB等数据库。

D3 PostgreSQL分发版,PostgreSQL as a Service,PSaaS。

D3 ArangoDB多模型(Multi-model)数据库,Apache v2。

数据库集群:

  • D3 Cluster based on Vitess MySQL Cluster
  • D3 Cluster for MariaDB (容器集群)
  • D3 Cluster for PostgreSQL (容器集群)
  • D3 Cluster for Cassandra (容器集群)
  • D3 MariaDB Cluster
  • D3 PostgreSQL Cluster
  • D3 ArangoDB Cluster

数据库容器

容器持久化

搜索引擎

信息检索

数据科学

  • D3 orange 为数据挖掘提供一个更好用的机器学习软件包,而不总是SPSS
  • D3 pentaho 数据集成、数据挖掘、大数据分析、商业智能解决方案。
  • Weka: Machine learning software to solve data mining problems

实践

领域

>>>更多行业解决方案

运营

商业软件

图集

链接

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱