New IDE 使用 Project、Workspace、Pipeline、Activity、Instance 等对象描述数据工程开发和运维链路。理解这些术语,有助于在创建文件、配置 Pipeline、发布上线和排查实例时保持一致沟通。
DataLeap New IDE | Azure Data Factory | Databricks | 说明 |
|---|---|---|---|
Project | Data Factory | Workspace | 顶层资源组织单元,包含代码、管道、权限与计算资源配置 |
Workspace(工作区) | — | Workspace | 用户的工作环境,与 Project 一一对应 |
Subscription(订阅) | Subscription | Subscription | 云资源的计费与管理单元 |
DataLeap New IDE | Azure Data Factory | Databricks | 说明 |
|---|---|---|---|
Pipeline(管道) | Pipeline | Job | 由多个 Activity 按依赖关系组成的工作流 |
Activity(活动) | Activity | Task | Pipeline 中的最小执行单元,如一段 SQL、一个 Notebook |
Pipeline Instance(管道实例) | Pipeline Run | Job Run | Pipeline 的一次具体执行 |
Activity Instance(活动实例) | Activity Run | Task Run | Activity 的一次具体执行 |
DataLeap New IDE | Azure Data Factory | Databricks | 说明 |
|---|---|---|---|
Schedule config | Trigger | Trigger / Schedule | 定义管道的触发条件(Cron / 事件驱动) |
Cron | Schedule Trigger | Cron Schedule | 基于时间的周期调度配置 |
手动触发 | Manual Trigger | Run Now | 用户手动发起一次管道执行 |
DataLeap New IDE | Azure Data Factory | Databricks | 说明 |
|---|---|---|---|
Ingestion Pipeline(采集管道) | Copy Activity | Ingestion Task | 专用于数据搬运的管道类型 |
Connection(连接) | Linked Service | Connection | 外部数据源的连接配置 |
Table | Dataset | Table | 对数据源中特定数据对象的引用 |
DataLeap New IDE | Azure Data Factory | Databricks | 说明 |
|---|---|---|---|
Branch(分支) | Git Branch | Branch | Git 分支,用于隔离开发 |
Bundle(部署包) | ARM Template / CI/CD | Databricks Asset Bundle | 将代码与配置打包发布至目标环境的机制 |
Notebook | — | Notebook | 交互式开发环境,支持多语言 Cell |
File | — | File | 独立的代码文件(SQL / Python / Scala / Shell) |
DataLeap New IDE | Azure Data Factory | Databricks | 说明 |
|---|---|---|---|
System Variable(系统变量) | System Variable | Built-in Variable | 平台预置变量,如 |
Project Parameter(项目参数) | Global Parameter | — | 项目级参数,所有管道共享 |
Pipeline Parameter(管道参数) | Pipeline Parameter | Job Parameter | 管道级入参,调用时传入 |
Pipeline Variable(管道变量) | Pipeline Variable | — | 管道内部变量,可在 Activity 间传递 |
Activity Output(活动输出) | Activity Output | Task Value | Activity 的输出值,可被下游 Activity 引用 |
DataLeap New IDE | Azure Data Factory | Databricks | 说明 |
|---|---|---|---|
Admin | Contributor | Admin | 项目管理员,拥有全部权限 |
Developer | — | Developer | 开发者,可编辑代码与管道 |
Operator | — | — | 运维人员,可执行与监控任务 |
Viewer | Reader | Viewer | 只读角色,仅可查看 |
参数类型 | DataLeap New IDE 语法 | ADF 语法 | 说明 |
|---|---|---|---|
系统变量 |
|
| 运行时自动替换的日期/时间变量 |
项目参数 |
|
| 项目级全局参数 |
管道参数 |
|
| 管道入参 |
管道变量 |
|
| 管道内部变量 |
活动输出 |
|
| 上游活动输出引用 |
子管道输出 |
|
| 子管道返回值引用 |
资源类型 | 文件命名规则 | 示例 |
|---|---|---|
Pipeline 配置 |
|
|
SQL 脚本 |
|
|
Python 脚本 |
|
|
Notebook |
|
|