You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件

大数据研发治理套件

复制全文
下载 pdf
快速开始
前置条件
复制全文
下载 pdf
前置条件

本文为您介绍使用 DataLeap New IDE 前需要满足的前置条件和要求。在使用 DataLeap New IDE 之前,请确认您已完成这些准备工作,以确保获得流畅、高效的开发体验。

1 订阅与账号要求

要求

说明

DataLeap 产品订阅

您需要开通以下 DataLeap 服务,才能使用相应的功能。开通服务的相关操作请参见2 DataLeap 服务信息

  • 新版 Pipeline 工作流:需要大数据分析版或更高版本才能支持。
  • Git 托管相关功能:需要 DataOps 敏捷研发版或更高版本才能支持。

产品功能开白

当前 New IDE 的新版工作流,处在开白阶段。如果您需要创建基于版本工作流的数据开发项目,则需要将您的租户ID、使用的 Region 通过 Oncall 提供给我们为您开白。

账号权限

  • 创建项目:在开白完成后,您需要拥有 DataLeapFullAccess 权限来创建项目、绑定资源。关于账号的详细说明请参见权限介绍账号赋权
  • 使用项目:在项目创建后,其他人如果需要进入项目中使用,需要由创建者(默认获得管理员权限)给其他成员加权限。相关操作请参见管理成员信息

2 支持的环境

2.1 支持的浏览器

DataLeap New IDE 是一个基于 Web 的 IDE,推荐使用最新版本的 chrome 浏览器,或使用新版本 chrome 内核的浏览器,进行访问。

3 支持的计算引擎情况

3.1 大数据计算引擎支持

新版工作流正在逐步完善中,对当前主流的大数据存算引擎的支持情况如下:

资源类型

说明

支持情况

EMR Serverless Spark

托管 Spark 引擎,用于 SQL、Notebook、JAR 和 Python 任务。

已支持

ByteHouse CDW

基于存算分离架构的 OLAP 引擎,可用于SQL 点查、报表分析等场景。

敬请期待

DataLeap 计算资源组

可执行 Shell/Python 等用用计算任务。

已支持

DataLeap 继承资源组

可执行数据同步任务。

已支持

Flink 资源组

可执行流式计算任务。

敬请期待

注意

在创建/编辑项目时,将资源绑定到项目中后,才能在项目内使用。

3.2 数据源支持的情况

当前支持的数据源能力如下:

数据源类型

数据源

离线同步

实时同步

单表读

增量读(where过滤)

单表写

单表增量写

大数据存储

Hive(on HDFS)

不支持

大数据存储

Hive(on TOS)

不支持

关系型数据库

SQLServer

关系型数据库

PostgreSQL

4 角色与权限

DataLeap New IDE 采用基于角色的访问控制(RBAC)模型。使用项目级别的内置角色,详见权限介绍

资源级权限

新版工作流在项目内引入了更精细的资源级别的所有权合并共享:

  • 文件所有者:代码文件或 Pipeline 配置文件的创建者或指定所有者,对该资源拥有完整管理权限。
  • Pipeline 所有者:生产环境中已发布 Pipeline 的指定所有者,具有运维控制权。
  • RunAs 身份: Pipeline 向计算引擎提交任务时使用的身份(决定数据访问范围)。

注意

请谨慎分配 RunAs 身份,它决定了 Pipeline 在引擎层面可以读写哪些数据。

5 项目初始化检查清单

在团队开始开发之前,请完成以下项目初始化步骤:

  1. 创建项目:在项目创建时选择 New IDE 开发模式,具体操作请参见创建项目
  2. 绑定计算引擎:至少将一个 EMR Serverless Spark 集群绑定到项目。
  3. 配置数据源(按需):注册所有所需的数据源连接(SQL Server、PostgreSQL、对象存储等)。
  4. 设置项目参数(按需):定义环境相关参数(如 prod_dbhdfs_rootjdbc_url),这些参数将在 Pipeline 中被引用。具体操作请参见参数信息设置
  5. 初始化 Git 仓库(按需):每个 New IDE 项目使用 Git 原生工作流,确保项目工作区已初始化 Git 仓库用于版本控制。
  6. 添加项目成员:邀请团队成员并分配相应角色(管理员、开发者、运维人员、查看者)。具体操作请参见管理成员信息
  7. 配置告警规则(按需):设置 Pipeline 执行失败、超时和 SLA 违规的监控和告警规则。

6 支持的节点类型

在新版工作流下,您可以创建下面类型的任务节点:

计算类节点

活动类型

引擎

说明

Notebook

EMR Serverless Spark

交互式笔记本,支持 Python、Scala、SQL 和 Shell。支持 %run 进行 Notebook 链式调用。

SQL

EMR Serverless Spark

针对已配置的数据源执行 SQL 查询。

JAR

EMR Serverless Spark

提交预构建的 Spark JAR 应用程序。

Python

通用计算

使用自定义环境和依赖执行 Python 脚本。

Shell

通用计算(容器)

在隔离容器中运行 Shell 命令,可配置资源分配。

Copy Data

Sail 引擎

在异构数据源和目标之间迁移数据。

控制流类节点

活动类型

说明

If/Else(分支)

基于表达式求值的条件分支。

ForEach

遍历数组,为每个元素执行内部活动。

Until(Do-While)

重复执行活动,直到满足条件或达到超时时间。

Execute Pipeline

调用另一个已发布的 Pipeline 作为子 Pipeline,支持参数传递。

Set Variable

在执行过程中动态设置 Pipeline 变量或 Pipeline 返回值。

数据感知类节点

活动类型

说明

Checker

监控数据可用性或外部条件,满足后再继续执行。

Data Quality

根据可配置的质量规则验证数据;强规则可阻止下游执行。

7 参数体系概览

DataLeap New IDE 提供分层参数体系,用于灵活的 Pipeline 配置。更多介绍请参见参数配置规则

参数类型

作用域

读写权限

生命周期

配置入口

系统变量

System

只读

运行时

平台内置,无需配置。

项目参数

Project

只读

长期

项目设置 → 参数管理

Pipeline 参数

Pipeline

只读(触发时可覆盖)

单次运行

Pipeline 定义页

Pipeline 变量

Pipeline

可变

单次运行

Pipeline 定义页

Pipeline 输出

Pipeline

只读

单次运行

Set Variables Activity

Activity 输出

Activity

只读

单次运行

平台自动捕获

Activity 入参

Activity

只读

单次运行

Activity 配置面板

Notebook 自定义参数

Notebook

可变

单次运行

Notebook 代码

8 限制与已知约束

项目

约束

最大 Pipeline 嵌套深度

3 层(父 → 子 → 孙)

每条 Pipeline 最大活动数

请联系您的客户经理,获取当前限制。

支持的 SQL 方言

SparkSQL(EMR Serverless)

Git 提供方

内置托管 Git(外部 Git 集成规划中)

最小调度间隔

5 分钟

9 后续步骤

满足所有前置条件后,请继续阅读:

  1. 快速入门指南:创建您的第一个项目并运行示例 Pipeline。
  2. 参数配置指南:了解如何在 Pipeline 间配置和引用参数。
  3. Pipeline 开发指南:构建、测试和部署生产级数据工作流。
  4. 运维与监控指南:设置告警、查看实例执行情况并管理 Pipeline 生命周期。
最近更新时间:2026.06.12 11:44:16
这个页面对您有帮助吗?
有用
有用
无用
无用