You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件

大数据研发治理套件

复制全文
下载 pdf
Git 集成
Git原生开发体验
复制全文
下载 pdf
Git原生开发体验

New IDE 将 Git 引入数据工程开发流程,让 Notebook、SQL、脚本、Pipeline 配置和资源描述可以像工程代码一样进行版本管理。团队可以通过 Git Folder 管理分支、查看 Diff、提交变更、同步远端仓库,并在发布前确认配置变更范围。
Image

Git 在 New IDE 中解决什么问题

场景

Git 带来的能力

多人同时修改同一条数据链路

使用分支、提交记录和 Diff 管理协作。

代码和配置变更难追踪

通过 Commit 记录变更时间、作者和说明。

发布前难判断影响范围

通过 Diff 查看 Notebook、SQL、Pipeline 配置和资源描述变化。

开发、测试、生产容易混用

通过分支策略和环境参数隔离不同阶段。

线上问题需要回溯历史

通过 Git 历史和发布记录共同定位变更来源。

Git 让数据工程资产具备更清晰的工程化管理方式,但它不直接改变线上 Pipeline。线上生效仍以 New IDE 发布流程为准。

Git Folder 的定位

Git Folder 是 Workspace 中与远端 Git 仓库关联的文件夹。与普通 Folder 相比,Git Folder 额外具备 Git 状态、分支、远端同步和版本历史。
适合放入 Git Folder 的内容:

  • Pipeline 配置文件。
  • Notebook。
  • SQL 文件。
  • Python / Shell 脚本。
  • 资源描述文件。
  • 与当前数据链路相关的说明文档和测试文件。

不建议放入 Git Folder 的内容:

  • 明文 Access Token、密码、AK/SK 或长期密钥。
  • 大量一次性临时文件。
  • 与当前业务链路无关的个人草稿。
  • 不应被团队共享的敏感数据样例。

Git 与 New IDE 发布流程

Git 和发布各自负责不同问题:

环节

主要对象

作用

Git 开发

Git Folder 中的文件

记录代码和配置变更,支持协作和审查。

配置校验

开发态 Pipeline

检查 DAG、参数、资源、路径和权限是否可用。

发布

Online Pipeline

让通过确认的 Pipeline 配置进入线上运行范围。

运维

Pipeline Instance 和 Activity Instance

查看运行状态、日志、重跑和告警。

因此,一个完整变更通常需要同时完成 Git 提交和 New IDE 发布。Push 到远端仓库只表示文件版本已同步,不代表生产 Pipeline 已使用该版本。

典型开发流程

  1. 在 Workspace 中进入 Git Folder。
  2. Pull 远端最新内容。
  3. 创建或切换到开发分支。
  4. 修改 Notebook、SQL、Pipeline 配置或资源描述。
  5. 在 New IDE 中运行调试或配置校验。
  6. 查看 Diff,确认变更范围。
  7. Commit 并 Push。
  8. 按团队流程完成审查。
  9. 发起发布,将配置发布为 Online Pipeline。

使用 Git 管理 Pipeline 的收益

对 Pipeline 配置使用 Git 后,团队可以更清楚地回答这些问题:

  • 本次发布修改了哪些 Activity、依赖、参数、资源或调度配置?
  • 这次变更是谁提交的,提交说明是什么?
  • 某个线上问题是否与最近一次代码或配置变更有关?
  • 当前生产分支和开发分支之间有哪些差异?
  • 如果需要恢复到旧逻辑,应参考哪个提交或发布记录?

注意事项

  • Git 分支和 New IDE Project 环境不是天然等同,需要通过团队规范明确映射关系。
  • Git 凭证只用于访问仓库,不代表具备数据源、计算资源或发布权限。
  • Pipeline 配置中的环境差异应优先使用参数和资源绑定表达,避免复制多套相似代码。
  • 合并涉及 Pipeline 配置的冲突后,应重新执行配置校验。
最近更新时间:2026.06.12 11:44:15
这个页面对您有帮助吗?
有用
有用
无用
无用