%title缩略图

DataShops-一个开源企业级PaaS平台

%title插图%numDataShops是什么

DataShops – 数据工厂是一个企业级PaaS平台,为企业提供工作流调度、数据开发、数据集成和数据服务等全方位的产品服务,一站式开发管理的界面,降低大数据开发和维护成本,帮助企业专注于数据价值的挖掘和探索

演示地址

演示地址

功能

  • 全面托管的调度
    • DataShops提供强大的调度功能
      • 支持根据时间、依赖关系,进行任务触发的机制
      • 支持每日千万级别的任务,根据DAG关系准确、准时地运行。
      • 支持分钟、小时、天、周和月多种调度周期。
    • 完全托管的服务,无需关心调度的服务器资源问题。
    • 提供隔离功能,确保不同租户之间的任务不会相互影响。
  • DataShops支持多种任务类型
    • 离线作业
      • Hive
      • Spark
      • Flink
      • Shell
      • Python
      • ClickHouse
    • 流式作业
      • Flink SQL
      • Kafka -> HDFS
      • Kafka -> Hive
    • 数据导入
      • Hive -> MySQL
      • MySQL -> Hive
  • 可视化开发
    • DataShops提供可视化的代码开发、工作流设计器页面,无需搭配任何开发工具,简单拖拽和开发,即可完成复杂的数据分析任务
  • 监控告警
    • 运维中心提供可视化的任务监控管理工具,支持以DAG图的形式展示任务运行时的全局情况,
    • 您可以方便地配置各类报警方式,任务发生错误可及时通知相关人员,保证业务正常运行。

架构设计

DataShops是一个分布式系统,分为master、worker、api三大组件,内部通过grpc通信,多个master做load balance

 

github开源地址:GitHub – NextMark/datashops: A distributed data factory, providing data access, etl, scheduling. Easily manage tasks such as hive, spark, clickhouse, flink, shell, python, mysql etc.

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

14 − 4 =

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据