HPCC

来自开放百科 - 灰狐
2021年8月31日 (二) 04:00Allen (讨论 | 贡献)的版本

跳转到: 导航, 搜索
Wikipedia-35x35.png 您可以在Wikipedia上了解到此条目的英文信息 HPCC Thanks, Wikipedia.

HPCC

Hpcc-systems-logo.png

目录

新闻

简介

HPCC (High-Performance Computing Cluster), 也称为 DAS (Data Analytics Supercomputer) 是一个开源(Apache v2)的大数据处理和分析平台,使用 C++ECL 开发。

版本

  • 6.0.x
  • 5.6.x

组件

HPCC Systems 包括以下核心组件:

  • Thor (the Data Refinery Cluster)
  • Roxie (Rapid Online XML Inquiry Engine, the Query Cluster)
  • ECL (Enterprise Control Language)
  • ECL IDE
  • ESP (Enterprise Services Platform)

平行

Parallelism Architecture:

  • Data Parallelism
  • Component Parallelism
  • Pipeline Parallelism
  • System Parallelism

指南

下载 HPCC 虚拟机 快速启动。

http://127.0.0.1:8010/

HPCC配置管理器

sudo /opt/HPCCSystems/sbin/configmgr
http://localhost:8015

机器学习

Identity&Risk

可视化

HPCC Visualization Framework JavaScript编写

ECL

声明性的、模块化的、可扩展的企业控制语言(ECL)是专为处理大数据而设计的。ECL代码编译成优化的C++,并且可以利用C++库方便地扩展。

我可以写4行ECL代码来替代SQL中的200行。这使得阅读,理解和维护代码变得非常容易。- Adwait Joshi, DataSeers公司CEO

UDF

用户可通过Java, Python, C++ R创建自己的User Defined Functions (UDF)

ECL IDE

ECL Watch

ECL Watch 是运行在Enterprise Services Platform (ESP)的一个服务,是HPCC平台的一个中间件组件。

ECL Watch Candidate-6.4.0 源代码 JavaScript编写。

ESDL

ESDL (Enterprise Service Description Language)

Dynamic ESDL

SALT

SALT: Scalable Automated Linking Technology 提供:

  • 连接和聚类 (MDM)
  • 数据归档、清洗、规范、标准化
  • 复杂的特性和基于连接和聚类的关系

Hpcc-salt.jpg

Thor

Thor (the Data Refinery Cluster), Thor 集群负责复杂的数据处理。

Thor,数据提炼引擎,是提取和补充数据的引擎。

  • Thor 使用主从拓扑,其从机提供本地化的数据存储和处理能力,主机监控和协调从机的活动,并传递任务状态信息。
  • 中间组件提供命名服务和其它服务,以辅助执行分布式任务。

Roxie

Roxie (Rapid Online XML Inquiry Engine), ROXIE 集群负责数据查询和报告。

ROXIE,数据传送引擎,提供了高性能的在线处理和数据仓库功能。

  • 每一个ROXIE节点会启动一个服务器进程和一个代理进程。这个服务器进程会处理用户传入的查询请求,并将查询任务分配给ROXIE集群相应的代理,校对结果,最后将有效负载返回给客户端。
  • 查询可能包括数据联接和其它复杂数据转换,有效负载可以包含结构化或非结构化的数据。

Interlok

Interlok: Seamless Data Integration

KEL

KEL: Knowledge Engineering Language

社交图

Hpcc-kel-social-graph.jpg

ESP

ESP (Enterprise Services Platform)

DFS

分布式文件系统 (DFS)

  • Thor DFS 是面向数据记录而设计的,并针对大数据ETL(提取-转换-加载) 进行了优化。数据记录存在于大数据输入文件中,可能是标准格式或是自定义格式,可能是定长或是不定长。大数据输入文件会在集群的 DFS 中进行分区,每一个节点都会获得大致相同数量的数据记录,并且单独记录不会被分割。
  • ROXIE DFS 基于索引,并针对并发查询处理进行了优化。该系统基于自定义B+树结构,可以实现快速、高效的数据摄取。

Nagios

HPCC使用Nagios进行系统监控。

Ganglia

HPCC使用Ganglia提供监控和报表。

Hadoop

HPCC和Hadoop的比较

Cassandra

Kafka

AWS

用户

Case Studies

文档

更多文档>>>

图集

链接

分享您的观点
个人工具
名字空间

变换
操作
导航
工具箱