本文为您介绍使用 DataLeap New IDE 前需要满足的前置条件和要求。在使用 DataLeap New IDE 之前,请确认您已完成这些准备工作,以确保获得流畅、高效的开发体验。
要求 | 说明 |
|---|---|
DataLeap 产品订阅 | 您需要开通以下 DataLeap 服务,才能使用相应的功能。开通服务的相关操作请参见2 DataLeap 服务信息。
|
产品功能开白 | 当前 New IDE 的新版工作流,处在开白阶段。如果您需要创建基于版本工作流的数据开发项目,则需要将您的租户ID、使用的 Region 通过 Oncall 提供给我们为您开白。 |
账号权限 |
DataLeap New IDE 是一个基于 Web 的 IDE,推荐使用最新版本的 chrome 浏览器,或使用新版本 chrome 内核的浏览器,进行访问。
新版工作流正在逐步完善中,对当前主流的大数据存算引擎的支持情况如下:
资源类型 | 说明 | 支持情况 |
|---|---|---|
EMR Serverless Spark | 托管 Spark 引擎,用于 SQL、Notebook、JAR 和 Python 任务。 | 已支持 |
ByteHouse CDW | 基于存算分离架构的 OLAP 引擎,可用于SQL 点查、报表分析等场景。 | 敬请期待 |
DataLeap 计算资源组 | 可执行 Shell/Python 等用用计算任务。 | 已支持 |
DataLeap 继承资源组 | 可执行数据同步任务。 | 已支持 |
Flink 资源组 | 可执行流式计算任务。 | 敬请期待 |
注意
在创建/编辑项目时,将资源绑定到项目中后,才能在项目内使用。
当前支持的数据源能力如下:
数据源类型 | 数据源 | 离线同步 | 实时同步 | ||
|---|---|---|---|---|---|
单表读 | 增量读(where过滤) | 单表写 | 单表增量写 | ||
大数据存储 | Hive(on HDFS) | ✅ | 不支持 | ✅ | ✅ |
大数据存储 | Hive(on TOS) | ✅ | 不支持 | ✅ | ✅ |
关系型数据库 | SQLServer | ✅ | ✅ | ✅ | ✅ |
关系型数据库 | PostgreSQL | ✅ | ✅ | ✅ | ✅ |
DataLeap New IDE 采用基于角色的访问控制(RBAC)模型。使用项目级别的内置角色,详见权限介绍。
新版工作流在项目内引入了更精细的资源级别的所有权合并共享:
注意
请谨慎分配 RunAs 身份,它决定了 Pipeline 在引擎层面可以读写哪些数据。
在团队开始开发之前,请完成以下项目初始化步骤:
prod_db、hdfs_root、jdbc_url),这些参数将在 Pipeline 中被引用。具体操作请参见参数信息设置。在新版工作流下,您可以创建下面类型的任务节点:
活动类型 | 引擎 | 说明 |
|---|---|---|
Notebook | EMR Serverless Spark | 交互式笔记本,支持 Python、Scala、SQL 和 Shell。支持 |
SQL | EMR Serverless Spark | 针对已配置的数据源执行 SQL 查询。 |
JAR | EMR Serverless Spark | 提交预构建的 Spark JAR 应用程序。 |
Python | 通用计算 | 使用自定义环境和依赖执行 Python 脚本。 |
Shell | 通用计算(容器) | 在隔离容器中运行 Shell 命令,可配置资源分配。 |
Copy Data | Sail 引擎 | 在异构数据源和目标之间迁移数据。 |
活动类型 | 说明 |
|---|---|
If/Else(分支) | 基于表达式求值的条件分支。 |
ForEach | 遍历数组,为每个元素执行内部活动。 |
Until(Do-While) | 重复执行活动,直到满足条件或达到超时时间。 |
Execute Pipeline | 调用另一个已发布的 Pipeline 作为子 Pipeline,支持参数传递。 |
Set Variable | 在执行过程中动态设置 Pipeline 变量或 Pipeline 返回值。 |
活动类型 | 说明 |
|---|---|
Checker | 监控数据可用性或外部条件,满足后再继续执行。 |
Data Quality | 根据可配置的质量规则验证数据;强规则可阻止下游执行。 |
DataLeap New IDE 提供分层参数体系,用于灵活的 Pipeline 配置。更多介绍请参见参数配置规则。
参数类型 | 作用域 | 读写权限 | 生命周期 | 配置入口 |
|---|---|---|---|---|
系统变量 | System | 只读 | 运行时 | 平台内置,无需配置。 |
项目参数 | Project | 只读 | 长期 | 项目设置 → 参数管理 |
Pipeline 参数 | Pipeline | 只读(触发时可覆盖) | 单次运行 | Pipeline 定义页 |
Pipeline 变量 | Pipeline | 可变 | 单次运行 | Pipeline 定义页 |
Pipeline 输出 | Pipeline | 只读 | 单次运行 | Set Variables Activity |
Activity 输出 | Activity | 只读 | 单次运行 | 平台自动捕获 |
Activity 入参 | Activity | 只读 | 单次运行 | Activity 配置面板 |
Notebook 自定义参数 | Notebook | 可变 | 单次运行 | Notebook 代码 |
项目 | 约束 |
|---|---|
最大 Pipeline 嵌套深度 | 3 层(父 → 子 → 孙) |
每条 Pipeline 最大活动数 | 请联系您的客户经理,获取当前限制。 |
支持的 SQL 方言 | SparkSQL(EMR Serverless) |
Git 提供方 | 内置托管 Git(外部 Git 集成规划中) |
最小调度间隔 | 5 分钟 |
满足所有前置条件后,请继续阅读: