本文介绍 DataLeap New IDE 中数据管道从开发到生产上线的完整工作流程。
创建分支 → 开发编码 → 本地调试 → 提交代码 → Merge Request → Code Review → 合入主干 → Bundle 发布 → 生产运行
DataLeap New IDE 采用 Git 原生的开发模式,所有代码和 Pipeline 配置以文件形式存储在 Git 仓库中,开发到上线的每一步都有版本记录和审批控制。
开发者从主干分支(通常为 main 或 master)创建 Feature Branch,在独立分支上进行开发工作。
feature/<功能描述> 或 fix/<问题描述>。在 Feature Branch 上进行代码编写和 Pipeline 编排:
开发内容 | 工具 |
|---|---|
SQL 脚本 | SQL 编辑器,选择引擎后即时执行验证。 |
Notebook | 多语言交互式开发,Cell 级别调试。 |
Pipeline 编排 | DAG 画布拖拽 + YAML 代码双模编辑。 |
参数配置 | 在 Pipeline YAML 中定义参数和变量。 |
开发环境中可直接运行和调试:
说明
开发环境中的调试运行使用开发环境的计算资源和参数配置,不影响生产环境数据。
调试通过后,将代码变更提交至 Git 仓库:
将 Feature Branch 的变更合入主干分支前,需创建 Merge Request(MR):
Reviewer 审查代码变更:
审查要点 | 说明 |
|---|---|
Pipeline 配置正确性 | 检查 YAML 配置的字段完整性和合理性。 |
依赖关系合理性 | 确认 DAG 依赖和跨 Pipeline 依赖正确。 |
参数引用一致性 | 确认参数定义与引用匹配,无遗漏。 |
调度配置合理性 | 检查 Cron 表达式、优先级、超时等配置。 |
SQL/脚本逻辑 | 审查数据处理逻辑的正确性和性能。 |
审查通过后 Reviewer 批准 MR,代码合入主干分支。
代码合入主干后,通过发布中心将 Pipeline 发布至生产环境:
Pipeline 发布后进入生产调度:
环境 | 用途 | 操作权限 |
|---|---|---|
开发环境 | 编码、调试、单元测试 | Developer 及以上 |
生产环境 | 正式调度运行 | 通过发布中心发布,需审批。 |
角色 | 职责 |
|---|---|
Developer | 编写代码、编排 Pipeline、提交 MR |
Reviewer | 审查 MR、批准代码合入 |
Admin | 管理发布权限、配置项目参数、管理计算资源 |
Operator | 监控生产任务、处理告警、执行回溯 |
实践 | 说明 |
|---|---|
小粒度提交 | 每次 MR 聚焦一个功能点或修复项,便于审查和回滚。 |
充分调试 | 发布前在开发环境完成功能验证,避免生产故障。 |
规范 commit message | 格式如 |
必须 Code Review | 所有生产变更经过至少一人审查,确保代码质量。 |
发布后验证 | 发布后观察首次调度运行结果,确认无异常。 |