New IDE 将 Git 引入数据工程开发流程,让 Notebook、SQL、脚本、Pipeline 配置和资源描述可以像工程代码一样进行版本管理。团队可以通过 Git Folder 管理分支、查看 Diff、提交变更、同步远端仓库,并在发布前确认配置变更范围。
场景 | Git 带来的能力 |
|---|---|
多人同时修改同一条数据链路 | 使用分支、提交记录和 Diff 管理协作。 |
代码和配置变更难追踪 | 通过 Commit 记录变更时间、作者和说明。 |
发布前难判断影响范围 | 通过 Diff 查看 Notebook、SQL、Pipeline 配置和资源描述变化。 |
开发、测试、生产容易混用 | 通过分支策略和环境参数隔离不同阶段。 |
线上问题需要回溯历史 | 通过 Git 历史和发布记录共同定位变更来源。 |
Git 让数据工程资产具备更清晰的工程化管理方式,但它不直接改变线上 Pipeline。线上生效仍以 New IDE 发布流程为准。
Git Folder 是 Workspace 中与远端 Git 仓库关联的文件夹。与普通 Folder 相比,Git Folder 额外具备 Git 状态、分支、远端同步和版本历史。
适合放入 Git Folder 的内容:
不建议放入 Git Folder 的内容:
Git 和发布各自负责不同问题:
环节 | 主要对象 | 作用 |
|---|---|---|
Git 开发 | Git Folder 中的文件 | 记录代码和配置变更,支持协作和审查。 |
配置校验 | 开发态 Pipeline | 检查 DAG、参数、资源、路径和权限是否可用。 |
发布 | Online Pipeline | 让通过确认的 Pipeline 配置进入线上运行范围。 |
运维 | Pipeline Instance 和 Activity Instance | 查看运行状态、日志、重跑和告警。 |
因此,一个完整变更通常需要同时完成 Git 提交和 New IDE 发布。Push 到远端仓库只表示文件版本已同步,不代表生产 Pipeline 已使用该版本。
对 Pipeline 配置使用 Git 后,团队可以更清楚地回答这些问题: