欢迎大家赞助一杯啤酒🍺 我们准备了下酒菜:Formal mathematics/Isabelle/ML, Formal verification/Coq/ACL2, C++/F#/Lisp
灰狐数据
小 (→灰狐分析) |
小 (→灰狐分析) |
||
(未显示1个用户的33个中间版本) | |||
第1行: | 第1行: | ||
灰狐数据 | 灰狐数据 | ||
+ | |||
+ | [[文件:Postgresql-logo.png|right]] | ||
+ | [[文件:ScyllaDB-logo.jpg|right]] | ||
==简介== | ==简介== | ||
一切皆数据,数据即洞察。 | 一切皆数据,数据即洞察。 | ||
− | 灰狐数据是[[灰狐咨询]] | + | 灰狐数据是[[灰狐咨询]]的大数据、数据存储、数据分析业务。 |
− | + | [https://forge.huihoo.com/news/643 对数据库、存储、数据安全外包业务的一些思考] | |
− | + | [[PostgreSQL]], [[ScyllaDB]] 是灰狐核心数据库引擎。 | |
+ | |||
+ | 我们理解的大数据三剑客:[[Apache Cassandra]]/[[ScyllaDB]]、[[Apache Kafka]] 和 [[Elasticsearch]],我们持续的深度耕耘,帮助客户构建更强大的大数据基础设施。 | ||
[[Elassandra]] = [[Elasticsearch]] + [[Apache Cassandra]] | [[Elassandra]] = [[Elasticsearch]] + [[Apache Cassandra]] | ||
第15行: | 第20行: | ||
[https://www.elastic.co/use-cases/networked-insights Solve Hadoop's “Last Mile" Problem with Elasticsearch] Use Elasticsearch to easily search Apache Hadoop data. | [https://www.elastic.co/use-cases/networked-insights Solve Hadoop's “Last Mile" Problem with Elasticsearch] Use Elasticsearch to easily search Apache Hadoop data. | ||
+ | |||
+ | 大数据领域的瑞士军刀变迁:[[MongoDB]] -> [[Elasticsearch]] -> [[ClickHouse]] | ||
==数据库== | ==数据库== | ||
[[D3]] 提供数据库和存储服务 | [[D3]] 提供数据库和存储服务 | ||
− | [[PostgreSQL]] 和 [[ | + | [[Riak]] 拥抱 [[Erlang ecosystem]] |
+ | |||
+ | [[MariaDB]] & [[Vitess]] | ||
+ | |||
+ | [[PostgreSQL]] 和 [[ClickHouse]] 也是我们长期提供LTS服务的核心数据库。 | ||
+ | |||
+ | Huihoo Analytics:基于 Analytical DBMS [[ClickHouse]] 构建,打造一套类似 [[Elasticsearch]] Elastic Stack 的解决方案。 | ||
[https://www.chapterx.cn ChapterX] 提供 πDB数据库、 一体机、服务的发展思路可借鉴。 | [https://www.chapterx.cn ChapterX] 提供 πDB数据库、 一体机、服务的发展思路可借鉴。 | ||
− | [https:// | + | ==数据库迁移== |
+ | [[pgloader]]服务 | ||
+ | *Migrate from [[MySQL]] to [[PostgreSQL]] | ||
+ | *Migrate from [[SQLite]] to PostgreSQL | ||
+ | *Migrate from [[Microsoft SQL Server]] to PostgreSQL | ||
+ | |||
+ | ==大数据== | ||
+ | * [[ScyllaDB]] The Real-Time Big Data Database | ||
+ | * 围绕 [[PostgreSQL]] & [[Greenplum]] 的 MPP大数据平台,OLTP + OLAP = HTAP。 | ||
+ | * 还有 [[HPCC]] Systems 大数据处理和分析平台,也是非常另类和一枝独秀。 | ||
+ | * 大数据领域的核心数据库变迁:[[MongoDB]] -> [[Elasticsearch]] -> [[ClickHouse]] | ||
+ | |||
+ | ==数据网关== | ||
+ | [https://github.com/stargate/stargate Stargate]开源数据网关,所有数据统一存储在 [[Apache Cassandra]] | ||
+ | |||
+ | ==桌面== | ||
+ | *[[SQuirreL SQL Client]]([[NetBeans]]) 比 [[DBeaver]]([[Eclipse]]) 更加自由开放,没有收费的企业版。 | ||
+ | *[[Kettle]] | ||
+ | *[[KNIME]] | ||
==业务== | ==业务== | ||
− | Huihoo Data Science | + | Huihoo [[Data science|Data Science]] |
− | *Data Analytics | + | *Data Analytics |
*Data Engineering | *Data Engineering | ||
*[[data mining|数据挖掘]]、[[Statistics|统计工程]]、[[machine learning|机器学习]] | *[[data mining|数据挖掘]]、[[Statistics|统计工程]]、[[machine learning|机器学习]] | ||
*[[database|数据库]]、[[data warehouse|数据仓库]] | *[[database|数据库]]、[[data warehouse|数据仓库]] | ||
+ | *[[Kettle]] 数据集成、ETL | ||
+ | *[[DBeaver]] for [[Eclipse]] 数据库管理 | ||
*[[M3|增长营销、增长黑客]] | *[[M3|增长营销、增长黑客]] | ||
*[[OpenAds]]广告业务 | *[[OpenAds]]广告业务 | ||
第37行: | 第70行: | ||
==DataOps== | ==DataOps== | ||
* [https://www.ibm.com/cn-zh/analytics/dataops IBM 数据运营 DataOps] | * [https://www.ibm.com/cn-zh/analytics/dataops IBM 数据运营 DataOps] | ||
+ | |||
+ | ==人工智能== | ||
+ | [[文件:lfaidata-logo.png|right|LF AI & Data Foundation]] | ||
+ | *[https://lfaidata.foundation/ LF AI & Data Foundation] | ||
==灰狐分析== | ==灰狐分析== | ||
− | [[CHAOSS]] 是灰狐的一项核心服务,我们围绕它建立在开源软件、开源社区的分析和治理能力,Open Distro for [[Elasticsearch]] 是基础设施。 | + | 以 [[KNIME]] 分析平台为核心工作台,展开各种[[data science|数据科学]]应用和服务。 |
+ | |||
+ | [[CHAOSS]] 是灰狐的一项核心服务,我们围绕它建立在开源软件、开源社区的分析和治理能力,Open Distro for [[Elasticsearch]] & [[ClickHouse]] 是基础设施。 | ||
[https://bestpractices.coreinfrastructure.org/en CII Best Practices Badge Program] 一个蛮有趣的[https://github.com/coreinfrastructure/best-practices-badge 开源项目] 可关注。 | [https://bestpractices.coreinfrastructure.org/en CII Best Practices Badge Program] 一个蛮有趣的[https://github.com/coreinfrastructure/best-practices-badge 开源项目] 可关注。 | ||
GrimoireLab & [[Eclipse SCAVA|CROSSMINER]] Two different philosophies to measure open source community health | GrimoireLab & [[Eclipse SCAVA|CROSSMINER]] Two different philosophies to measure open source community health | ||
+ | |||
+ | ==Haskell== | ||
+ | [[文件:Haskell-logo.png|right|Haskell]] | ||
+ | [[文件:PostgREST-logo.png|right|PostgREST]] | ||
+ | |||
+ | Haskell 是灰狐数据核心编程语言。 | ||
+ | *[[Haskell]] for [[machine learning|机器学习]]和[[data science|数据科学]]。 | ||
+ | *[[PostgREST]] [[REST]] [[API]] for any [[PostgreSQL]] database [https://postgrest.org/en/v9.0/ecosystem.html PostgREST ecosystem] | ||
+ | |||
+ | ==Lisp== | ||
+ | in [[Lisp]], code is data. | ||
+ | |||
+ | *[[pgloader]] | ||
==项目== | ==项目== | ||
− | *Huihoo | + | *Huihoo Analytics:based on [[ClickHouse]] |
+ | *关注 [[ZFS|OpenZFS]], [[Ceph]] | ||
*[[Apache Kafka]]核心数据聚合和流数据平台 | *[[Apache Kafka]]核心数据聚合和流数据平台 | ||
*[[RabbitMQ]]消息中间件 | *[[RabbitMQ]]消息中间件 | ||
*[[SMACK堆栈]] | *[[SMACK堆栈]] | ||
*[[KNIME]]、[[H2O]] | *[[KNIME]]、[[H2O]] | ||
− | *[[PostgreSQL]]、[[Apache Cassandra | + | *[[PostgreSQL]]、[[Apache Cassandra]] |
*[[Open data]] | *[[Open data]] | ||
− | |||
− | |||
*[https://pydata.org/ PyData] Python for Data | *[https://pydata.org/ PyData] Python for Data | ||
第60行: | 第111行: | ||
<gallery> | <gallery> | ||
image:kafka-modern-stream-centric-data-architecture.png|Kafka流数据平台 | image:kafka-modern-stream-centric-data-architecture.png|Kafka流数据平台 | ||
+ | image:stargate.png|Stargate数据网关 | ||
</gallery> | </gallery> | ||
第68行: | 第120行: | ||
[[category:big data]] | [[category:big data]] | ||
− | [[category: | + | [[category:data science]] |
− | [[category: | + | [[category:database]] |
− | [[category: | + | [[category:storage]] |
[[category:cassandra]] | [[category:cassandra]] | ||
− | [[category: | + | [[category:PostgreSQL]] |
[[category:huihoo]] | [[category:huihoo]] |
2022年4月13日 (三) 02:45的最后版本
灰狐数据
目录 |
[编辑] 简介
一切皆数据,数据即洞察。
灰狐数据是灰狐咨询的大数据、数据存储、数据分析业务。
PostgreSQL, ScyllaDB 是灰狐核心数据库引擎。
我们理解的大数据三剑客:Apache Cassandra/ScyllaDB、Apache Kafka 和 Elasticsearch,我们持续的深度耕耘,帮助客户构建更强大的大数据基础设施。
Elassandra = Elasticsearch + Apache Cassandra
Elasticsearch 和 Apache Cassandra 是灰狐数据的核心存储支撑,Apache Kafka 核心数据聚合和流数据平台,Metabase/Apache Superset是BI和分析门户。Elasticsearch Hadoop
Solve Hadoop's “Last Mile" Problem with Elasticsearch Use Elasticsearch to easily search Apache Hadoop data.
大数据领域的瑞士军刀变迁:MongoDB -> Elasticsearch -> ClickHouse
[编辑] 数据库
D3 提供数据库和存储服务
PostgreSQL 和 ClickHouse 也是我们长期提供LTS服务的核心数据库。
Huihoo Analytics:基于 Analytical DBMS ClickHouse 构建,打造一套类似 Elasticsearch Elastic Stack 的解决方案。
ChapterX 提供 πDB数据库、 一体机、服务的发展思路可借鉴。
[编辑] 数据库迁移
pgloader服务
- Migrate from MySQL to PostgreSQL
- Migrate from SQLite to PostgreSQL
- Migrate from Microsoft SQL Server to PostgreSQL
[编辑] 大数据
- ScyllaDB The Real-Time Big Data Database
- 围绕 PostgreSQL & Greenplum 的 MPP大数据平台,OLTP + OLAP = HTAP。
- 还有 HPCC Systems 大数据处理和分析平台,也是非常另类和一枝独秀。
- 大数据领域的核心数据库变迁:MongoDB -> Elasticsearch -> ClickHouse
[编辑] 数据网关
Stargate开源数据网关,所有数据统一存储在 Apache Cassandra
[编辑] 桌面
[编辑] 业务
Huihoo Data Science
- Data Analytics
- Data Engineering
- 数据挖掘、统计工程、机器学习
- 数据库、数据仓库
- Kettle 数据集成、ETL
- DBeaver for Eclipse 数据库管理
- 增长营销、增长黑客
- OpenAds广告业务
- 灰狐教育、知识图谱、问答系统、智能机器人(灰狐):语言助手、聊天Bot、告警Bot、虚拟助手等等,每一个设备都住着一位Bot。
[编辑] DataOps
[编辑] 人工智能
[编辑] 灰狐分析
以 KNIME 分析平台为核心工作台,展开各种数据科学应用和服务。
CHAOSS 是灰狐的一项核心服务,我们围绕它建立在开源软件、开源社区的分析和治理能力,Open Distro for Elasticsearch & ClickHouse 是基础设施。
CII Best Practices Badge Program 一个蛮有趣的开源项目 可关注。
GrimoireLab & CROSSMINER Two different philosophies to measure open source community health
[编辑] Haskell
Haskell 是灰狐数据核心编程语言。
- Haskell for 机器学习和数据科学。
- PostgREST REST API for any PostgreSQL database PostgREST ecosystem
[编辑] Lisp
in Lisp, code is data.
[编辑] 项目
- Huihoo Analytics:based on ClickHouse
- 关注 OpenZFS, Ceph
- Apache Kafka核心数据聚合和流数据平台
- RabbitMQ消息中间件
- SMACK堆栈
- KNIME、H2O
- PostgreSQL、Apache Cassandra
- Open data
- PyData Python for Data
[编辑] 图集
[编辑] 链接
- Huihoo.IO
- xxhadoop Data Analysis Using Hadoop/Spark/Storm/ES/ML etc. This is My Learning Notes/Code/Demo. Don't fork, Just star !
- Tushare金融大数据 给出了一个思路。