D3

来自开放百科 - 灰狐
(版本间的差异)
跳转到: 导航, 搜索
(含义)
(组成)
 
(未显示1个用户的75个中间版本)
第2行: 第2行:
  
 
==含义==
 
==含义==
D3:Data, Database, Deep Learning // 取其中的三个D
+
D3:Data, [[Database]], [[Deep learning]] // 取其中的三个D
  
 
D3也表示以Data为中心的软件架构和开发模式。
 
D3也表示以Data为中心的软件架构和开发模式。
第14行: 第14行:
  
 
==路线图==
 
==路线图==
 +
缺省路线图:D3 [[Hortonworks|HDP]](两层含义:Huihoo Data Platform和Hortonworks Data Platform)
 +
 
路线一:
 
路线一:
 +
*基于[[Erlang]]数据库构建,Riak as a Foundation + [[Redis]] for Low Latency + [[Apache Spark|Spark]] for Analytics。(默认)
 +
*[http://docs.huihoo.com/erlang/conference/euc2015/From-Concept-to-Reality-Solving-Enterprise-Challenges.pdf From Concept to Reality Solving Enterprise Challenges]
 +
 +
路线二:
 
*做Python和数据分析发行版 D3 Analysis Platform(DAP),类似Anaconda。
 
*做Python和数据分析发行版 D3 Analysis Platform(DAP),类似Anaconda。
 
*[[Anaconda python|Anaconda]] D3 Anaconda Platform (DAP) + [https://pydata.org/ PyData] + [[scikit-learn]] + [[Keras]] [https://anaconda.org/omnia/keras conda install -c omnia keras=0.3.2]
 
*[[Anaconda python|Anaconda]] D3 Anaconda Platform (DAP) + [https://pydata.org/ PyData] + [[scikit-learn]] + [[Keras]] [https://anaconda.org/omnia/keras conda install -c omnia keras=0.3.2]
  
路线二:
+
路线三:
 
*以[[Hortonworks]]为大数据基石
 
*以[[Hortonworks]]为大数据基石
 
*基于[[Deeplearning4j]]、[[H2O]]、[[Scala]]和[[Apache Spark]]构建[[Java virtual machine|JVM]]生态的D3解决方案:[[Deep learning on HDP]]
 
*基于[[Deeplearning4j]]、[[H2O]]、[[Scala]]和[[Apache Spark]]构建[[Java virtual machine|JVM]]生态的D3解决方案:[[Deep learning on HDP]]
第25行: 第31行:
 
*通过[[Apache Bigtop]]分发D3
 
*通过[[Apache Bigtop]]分发D3
  
路线三:
+
路线四:
 
*[[HPCC]]是[[Apache Hadoop|Hadoop]]外的另一种选择。
 
*[[HPCC]]是[[Apache Hadoop|Hadoop]]外的另一种选择。
 
*整合[[TensorFlow]], [[MXNet]], [[PaddlePaddle]]等深度学习框架和机器学习库。
 
*整合[[TensorFlow]], [[MXNet]], [[PaddlePaddle]]等深度学习框架和机器学习库。
第31行: 第37行:
 
*支持[[Python]]等尽可能多的外部接口语言。
 
*支持[[Python]]等尽可能多的外部接口语言。
 
[[文件:pydata.png|right]]
 
[[文件:pydata.png|right]]
路线四:D3.NET
+
 
 +
==核心==
 +
D3三驾马车:[[Apache Kafka]] Data Hub、[[Apache HBase]]  Data Storage、[[Elasticsearch]] Data Insight.
 +
 
 +
==堆栈==
 +
D3软件堆栈:[[SMACK堆栈]]
 +
 
 +
==商业形态==
 +
提供数据库、商业智能和数据分析服务
 +
 
 +
[[灰狐数据]]: Huihoo Analytics
 +
 
 +
==分析引擎==
 +
Huihoo Analytics:基于 Analytical DBMS [https://github.com/yandex/ClickHouse ClickHouse] 构建,打造一套类似 [[Elasticsearch]] [https://www.elastic.co/cn/products/ Elastic Stack] 的解决方案。
  
 
==D3.NET==
 
==D3.NET==
第39行: 第58行:
  
 
==组成==
 
==组成==
*D3 Studio
+
*D3 Studio(IDE) -> DStudio ?
 +
可设计成类似 [https://apps.kde.org/cantor/ Cantor] 那样的数学和统计学工具包前端,支持 KAlgebra,Lua,Maxima,R,Sage,Octave,Python,Scilab 和 Qalculate 等众多环境
 
*D3 Server
 
*D3 Server
*D3 HDP
+
*D3 Database
  
 
工具
 
工具
*D3 Studio insprie by [https://github.com/rapidminer/rapidminer-studio RapidMiner Studio]
+
*D3 Studio based on [[Eclipse]] Data Tools Platform (DTP) 和 [[DBeaver]]/[[KNIME]] insprie by [[Metabase]] and [https://github.com/rapidminer/rapidminer-studio RapidMiner Studio]
 
*[[Anaconda python|Anaconda]] + [[Jupyter]] is the new front end for data science and AI.  
 
*[[Anaconda python|Anaconda]] + [[Jupyter]] is the new front end for data science and AI.  
 
*打造成类似[[MATLAB]][[Machine_learning|机器学习]]和[[Artificial neural network|神经网络]]平台,基于[[GNU_Octave|Octave]]构建。
 
*打造成类似[[MATLAB]][[Machine_learning|机器学习]]和[[Artificial neural network|神经网络]]平台,基于[[GNU_Octave|Octave]]构建。
 +
*De [[orange]] 数据挖掘工具包
 
*D3 [[weka]] 数据挖掘工具包
 
*D3 [[weka]] 数据挖掘工具包
  
第55行: 第76行:
  
 
基础设施
 
基础设施
 +
*[[PostgreSQL]] DBaaS, [https://github.com/citusdata/citus Citus] Multi-tenant database SaaS, [[OpenStack/trove|OpenStack DBaaS (Trove)]] 数据库即服务,跟进[[Amazon Aurora]]。
 
*[[Deep learning on HDP]] [http://docs.huihoo.com/hortonworks/deep-learning-with-hortonworks-and-apache-spark.pdf Deep Learning on HDP]
 
*[[Deep learning on HDP]] [http://docs.huihoo.com/hortonworks/deep-learning-with-hortonworks-and-apache-spark.pdf Deep Learning on HDP]
 
*[[HDP on OpenStack]]
 
*[[HDP on OpenStack]]
第61行: 第83行:
 
*[[Open data|开放数据]]
 
*[[Open data|开放数据]]
 
*通过[[scrapy]]等工具爬取更多数据
 
*通过[[scrapy]]等工具爬取更多数据
 +
 +
==数据库==
 +
D3 Studio 客户端管理工具,基于 [[SQuirreL_SQL_Client]] 构建,支持 [[MariaDB]]、[[PostgreSQL]]、[[Apache Cassandra]]、[[MongoDB]]、[[ArangoDB]]等数据库。
 +
 +
为 [[RavenDB]]、[[PostgreSQL]]、[[MariaDB]] 和 [[ScyllaDB]] 等核心数据库提供支持和服务,D3 [[DBeaver]] 的分发。
 +
 +
Multi-model is the future,以下是D3数据库路线图:
 +
 +
喜欢 ArangoDB 的定位:One engine. One query language. Multiple models.
 +
 +
D3 [[ArangoDB]]多模型(Multi-model)数据库,Apache v2。
 +
 +
[https://github.com/ngaut/builddatabase 从零开始写分布式数据库] 一个思路
 +
 +
D3 database基于[[Riak]]构建和分发:
 +
*D3 KV
 +
*D3 TS
 +
*D3 S2
 +
 +
D3 PostgreSQL分发版,based on [[CitusDB]],[[PostgreSQL]] as a Service,PSaaS。
 +
 +
数据库集群:
 +
D3 Cluster based on [[Vitess MySQL Cluster]]
 +
*D3 [[RavenDB]]
 +
*D3 [[ScyllaDB]]
 +
*D3 Cluster for MariaDB (容器集群)
 +
*D3 Cluster for PostgreSQL (容器集群)
 +
*D3 MariaDB Cluster
 +
*D3 PostgreSQL Cluster
 +
*D3 ScyllaDB Cluster
 +
 +
==数据库迁移==
 +
*[https://datamigration.microsoft.com/ Azure Database Migration Guide]
 +
 +
==数据库容器==
 +
容器持久化
 +
 +
==爬虫==
 +
D3 Hawk 基于 [https://github.com/ferventdesert/Hawk Hawk] 一个桌面爬虫和 ELT 引擎,[[C Sharp|C#]] 编写。
  
 
==搜索引擎==
 
==搜索引擎==
第67行: 第128行:
  
 
==[[data science|数据科学]]==
 
==[[data science|数据科学]]==
 +
数据科学、[[Machine learning|机器学习]]
 +
*D3V:基于 [https://antvis.github.io/ AntV] 和 [https://github.com/apache/incubator-echarts Apache ECharts] 的数据可视化
 +
*D3 [http://pnda.io/ PNDA] 大数据分析
 +
*D3 [[KNIME]]
 +
*D3 [[H2O]]
 
*D3 [[orange]] 为数据挖掘提供一个更好用的机器学习软件包,而不总是[[SPSS]]。
 
*D3 [[orange]] 为数据挖掘提供一个更好用的机器学习软件包,而不总是[[SPSS]]。
 
*D3 [[pentaho]] 数据集成、数据挖掘、大数据分析、商业智能解决方案。
 
*D3 [[pentaho]] 数据集成、数据挖掘、大数据分析、商业智能解决方案。
 
*[[Weka]]: [[Machine learning]] software to solve [[data mining]] problems
 
*[[Weka]]: [[Machine learning]] software to solve [[data mining]] problems
 +
*[https://www.datacamp.com/community/podcast/women-in-data-science Women in Data Science]
 +
 +
==科学计算==
 +
一个类似[[Anaconda python]]的[[Julia]]科学计算平台:D3 Julia。
 +
 +
==DC/OS==
 +
D3 on DC/OS
 +
 +
[http://blog.huihoo.com/?p=958 Data Science and Machine Learning on DC/OS]
  
 
==实践==
 
==实践==
第95行: 第170行:
 
*[[Kettle]] & [[Talend]]
 
*[[Kettle]] & [[Talend]]
 
*[[Apache Kylin]] [[OLAP]] on Hadoop
 
*[[Apache Kylin]] [[OLAP]] on Hadoop
*基于[[Eclipse]]的各种分析和运营工具:[[XMind]]
+
*基于[[Eclipse]]的各种分析和运营工具:[[KNIME]]、[[XMind]]
  
 
==商业软件==
 
==商业软件==
第103行: 第178行:
 
==图集==
 
==图集==
 
<gallery>
 
<gallery>
 +
image:Anaconda-Distribution.png|Anaconda Distribution
 
image:bigdata-v1.png|大数据
 
image:bigdata-v1.png|大数据
 +
image:pnda-console.png|PNDA
 +
image:FDIO-Integrations.png|快数据
 +
image:aiven-io.png|Aiven
 +
image:Basho-data-platform.png|Basho数据平台
 +
image:gekko-mongodb.png|比特币交易数据
 +
image:apache-madlib-architecture.png|MADlib架构
 
</gallery>
 
</gallery>
  
 
==链接==
 
==链接==
 
*[https://www.growingio.com GrowingIO] 技术栈是 [[Scala]], [[play framework|Play]], [[Apache Spark|Spark]], [[Apache Kafka|Kafka]], [[Apache HBase|HBase]], [[ElasticSearch]]
 
*[https://www.growingio.com GrowingIO] 技术栈是 [[Scala]], [[play framework|Play]], [[Apache Spark|Spark]], [[Apache Kafka|Kafka]], [[Apache HBase|HBase]], [[ElasticSearch]]
 +
*[https://www.analysys.cn/article/detail/1001275 Lambda架构已死,去ETL化的IOTA才是未来]
  
 
[[category:big data]]
 
[[category:big data]]
 +
[[category:fast data]]
 
[[category:artificial intelligence]]
 
[[category:artificial intelligence]]
 
[[category:deep learning]]
 
[[category:deep learning]]

2023年7月19日 (三) 04:08的最后版本

D3

目录

[编辑] 含义

D3:Data, Database, Deep learning // 取其中的三个D

D3也表示以Data为中心的软件架构和开发模式。

D3 is a Platform for Data.

[编辑] 愿景

普适的大数据人工智能,AI on every device everywhere.

Build Your Own Data Cloud.

[编辑] 路线图

缺省路线图:D3 HDP(两层含义:Huihoo Data Platform和Hortonworks Data Platform)

路线一:

路线二:

路线三:

路线四:

  • HPCCHadoop外的另一种选择。
  • 整合TensorFlow, MXNet, PaddlePaddle等深度学习框架和机器学习库。
  • C++语言核心驱动大数据和人工智能基础设施。
  • 支持Python等尽可能多的外部接口语言。
Pydata.png

[编辑] 核心

D3三驾马车:Apache Kafka Data Hub、Apache HBase Data Storage、Elasticsearch Data Insight.

[编辑] 堆栈

D3软件堆栈:SMACK堆栈

[编辑] 商业形态

提供数据库、商业智能和数据分析服务

灰狐数据: Huihoo Analytics

[编辑] 分析引擎

Huihoo Analytics:基于 Analytical DBMS ClickHouse 构建,打造一套类似 Elasticsearch Elastic Stack 的解决方案。

[编辑] D3.NET

基于.NET的大数据和机器学习解决方案。

[编辑] 组成

  • D3 Studio(IDE) -> DStudio ?

可设计成类似 Cantor 那样的数学和统计学工具包前端,支持 KAlgebra,Lua,Maxima,R,Sage,Octave,Python,Scilab 和 Qalculate 等众多环境

  • D3 Server
  • D3 Database

工具

业务框架

基础设施

[编辑] 数据

[编辑] 数据库

D3 Studio 客户端管理工具,基于 SQuirreL_SQL_Client 构建,支持 MariaDBPostgreSQLApache CassandraMongoDBArangoDB等数据库。

RavenDBPostgreSQLMariaDBScyllaDB 等核心数据库提供支持和服务,D3 DBeaver 的分发。

Multi-model is the future,以下是D3数据库路线图:

喜欢 ArangoDB 的定位:One engine. One query language. Multiple models.

D3 ArangoDB多模型(Multi-model)数据库,Apache v2。

从零开始写分布式数据库 一个思路

D3 database基于Riak构建和分发:

  • D3 KV
  • D3 TS
  • D3 S2

D3 PostgreSQL分发版,based on CitusDBPostgreSQL as a Service,PSaaS。

数据库集群: D3 Cluster based on Vitess MySQL Cluster

  • D3 RavenDB
  • D3 ScyllaDB
  • D3 Cluster for MariaDB (容器集群)
  • D3 Cluster for PostgreSQL (容器集群)
  • D3 MariaDB Cluster
  • D3 PostgreSQL Cluster
  • D3 ScyllaDB Cluster

[编辑] 数据库迁移

[编辑] 数据库容器

容器持久化

[编辑] 爬虫

D3 Hawk 基于 Hawk 一个桌面爬虫和 ELT 引擎,C# 编写。

[编辑] 搜索引擎

信息检索

[编辑] 数据科学

数据科学、机器学习

[编辑] 科学计算

一个类似Anaconda pythonJulia科学计算平台:D3 Julia。

[编辑] DC/OS

D3 on DC/OS

Data Science and Machine Learning on DC/OS

[编辑] 实践

[编辑] 领域

>>>更多行业解决方案

[编辑] 运营

[编辑] 商业软件

[编辑] 图集

[编辑] 链接

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱