DataLeap New IDE 是一款面向企业级数据工程场景的 Git 原生、多语言、多引擎 集成开发平台。它将代码开发、工作流编排、任务调度与运维监控统一在一个工作空间中,帮助数据工程师以现代软件工程的方式管理数据管道(Data Pipeline)的全生命周期。
在传统数据平台中,数据团队常面临以下挑战:
DataLeap New IDE 通过以下设计理念解决上述问题:
设计理念 | 说明 |
|---|---|
Git 原生 | 所有代码、管道配置、元数据均以文件形式存储于 Git 仓库,天然支持版本控制、分支协作与 Code Review |
配置即代码 | 工作流采用 YAML 声明式定义,支持可视化画布与代码双模编辑,兼顾易用性与可维护性 |
多引擎统一 | 在同一平台内对接 Spark、Presto、Flink、ByteHouse 等计算引擎,无需切换工具 |
环境隔离与一键部署 | 开发/生产环境严格隔离,通过 Bundle 机制实现配置参数化与自动化部署 |
DataLeap New IDE 适用于以下典型数据工程场景:
角色 | 使用方式 |
|---|---|
数据工程师 | 日常开发、调试数据管道,编写 SQL/Python/Scala 脚本 |
数据平台管理员 | 管理项目权限、配置计算资源、监控平台运行状况 |
数据运维人员 | 监控任务运行、处理告警、执行故障恢复 |
数据分析师 | 使用 Notebook 进行交互式数据探索与分析 |
New IDE 不替代 DataLeap 的项目、计算资源、调度、发布和运维能力,而是在这些能力之上提供一个面向开发者的统一工作区。
能力域 | DataLeap 原有能力 | New IDE 中的组织方式 |
|---|---|---|
项目与权限 | 项目、成员、角色、资源和数据源管理 | 继续以 Project 作为权限和资源边界 |
开发对象 | 任务、Notebook、资源、函数等 | 统一组织为 Workspace 中的文件、Git Folder、Notebook、脚本和 Pipeline 配置 |
协作方式 | 项目角色与发布流程 | 增加 Git 分支、Diff、Commit、Push、Pull 和文件级协作入口 |
编排方式 | 单任务调度依赖为主 | 增加 Pipeline 画布、Activity 节点、内部依赖和控制节点 |
发布运维 | 发布包、复查、实例、日志和告警 | 发布 Pipeline 后进入 Online Pipeline、Pipeline Instance 和 Activity Instance 运维视图 |