本文为您介绍 2025 年大数据研发治理套件 DataLeap 产品功能版本更新和相关文档动态。
2025/12/21 序号
功能
功能描述
相关文档
1
数据集成
ByteHouse CDW 数据源配置时新增密码鉴权方式,支持通过用户名、密码来精准控制任务执行时 ByteHouse CDW 数据库的访问权限,提升用户数据安全及任务管理便捷性。 REST_API 数据源配置新增“Token auto refresh auth” 验证方式。若您场景中需通过 Refresh Token 方式定期获取动态 Access Token 信息,可采用该验证方式,避免 Access Token 失效场景下任务执行失败,提升任务执行成功率。 实时整库同步解决方案执行详情的相关任务页签中,针对已删除的实时任务,优化列表展示逻辑:支持查看已删除任务的名称,且不开放操作入口,避免误操作并提升用户使用体验。 实时整库同步解决方案读取新增 SQLServer 数据源多库方式配置方案,提升数据同步效率。 离线整库解决方案进行提交停止操作时,支持对任务进行下游依赖情况检查,若存在下游依赖任务,则无法继续提交停止操作。 实时整库/分库分表解决方案在目标端为 LAS 数据源,且源端 datetime 类型时间戳字段需写入目标端 bigint 类型字段时,方案生成的批作业将默认增加高级参数 job.writer.date_precision = millisecond,自动将目标端字段转换为毫秒级时间戳,提升数据同步准确性。
2025/12/10 序号
功能
功能描述
相关文档
1
数据开发
离线任务提交上线时,优化上线检查机制,系统化梳理上线前的各项检查,并支持血缘解析的部分检查项不阻断任务整体上线,提升上线检查效率。 2
运维中心
运维概览界面中项目下任务数量统计口径调整,运维中心展示的“全部任务总数”统计范围仅包含已发布至运维中心的启用任务与关闭任务,剔除未上线任务的统计。 运维中心监控告警选择短信发送时,界面增加提示,告知该方式将同时发送短信和邮件,避免用户误解,提升产品使用体验。 任务运维界面执行批量关闭任务时,界面增加提示:单次批量关闭的任务数量最多控制在 50 个及以内,避免影响操作性能。 3
控制台
智能市场中,字段选择器、依赖预览等多个插件功能下调 DataLeap 服务版本限制,仅需 DataLeap 大数据分析版本即可使用。 创建项目时,用户可以手动选择是否将数据开发的项目创建为数据安全中的用户组。 标签组下已被上线任务使用的标签无法修改或删除,但可在标签组下新建标签,也可修改或删除其他未被使用的标签。 4
数据地图
Hive 类型的 LAS Catalog 表支持修改表生命周期。 资产目录增加筛选条件,支持按通用筛选器 筛选资产。 在 ByteHouse CDW 表详情页,支持编辑表负责人,支持查看 DDL。 EMR Hive 表详情页修改生命周期时,支持关键分区永久保存配置、分区查询热度图等功能。 整合专辑管理功能:多个专辑管理功能分布在不同菜单下,比较杂乱,故下线我的库表 > 专辑管理 功能,可统一在资产管理 > 上下架管理 > 专辑管理 中管理。 修改 LAS Catalog 表时与引擎侧保持一致:禁止修改字段名、类型,禁止在表中间插入字段。 新增智能元数据生成功能,系统可根据血缘依赖、任务信息等内容生成表/字段的描述推荐,供您参考或采纳。 5
数据质量
数据探查、数据对比时,一个 EMR_SERVERLESS_SPARK 指定队列下可包含多个不同的计算组,支持按计算组选择,选项内容格式为队列-计算组 。 在任务调试 时,可选择是否触发监控规。若开启触发,则任务调试成功后,会触发监控规则的执行。目前 EMR Serverless Spark 类型任务调试时暂不支持触发监控规则。 6
数据安全
授权管理时,增加跳转到已开通的引擎的链接,便于用户在引擎端管理自定义数据库用户的数据权限。
2025/11/20 序号
功能
功能描述
相关文档
1
数据集成
数据集成数据源连通时,支持子网粒度的测试连通性,在数据源配置时,便能保障集成资源组所属 VPC 下的各子网均能与数据源连通,避免因子网连通问题导致任务执行异常。 Doris 数据源新增支持连接串 方式配置,支持用户在数据源配置时,直接输入自建的 Doris 连接串集群信息,满足用户自建 Doris 集群的数据同步需求。 Rest_API 数据源配置时,请求参数配置多层级参数时,支持通过 col.pageNo、col.pageSize 等方式来对应配置多次请求参数和单页大小参数,满足更多场景下的 API 取数需求。 读取 ByteHouse CDW/CE 数据时,支持配置高级参数 job.reader.use_local_split=true。该参数适用于任务配置的切分键包含空值的场景,可避免任务执行时发生数据丢失或重复。 单通道写入 ByteHouse CDW 目标数据源,一键建表操作选择分区键时,当选择的分区字段数据类型为 DateTime、DateTime64、Date、Time 时间类型时,可进一步编辑选择 MONTH、DAY、HOUR 分区粒度,进行聚合分区,提高数据写入分区效率。 通道任务在配置字段映射时,新增映射检查按钮,源端与目标端不一致的字段名称将被标识出,提醒您注意检查。 实时整库解决方案在源端为 MySQL 8.0 及以上版本,且源表无主键字段属性时,优化支持填充“my_row_id”隐藏主键字段,并自动将其作为主键同步,避免同步方案执行失败。 在实时整库全增量方案中,新增高级参数 job.reader. add_zone_offset_to_zero_timestamp=true。当源端表字段中包含不同类型的时间字段(含时区和不含时区的情况并存),您可添加该高级参数,使不同类型的时间字段在转时间戳的处理逻辑上保持一致,可避免出现目标表字段时间值不一致的场景。 实时整库、离线整库解决方案提交时,优化源表和目标表的映射校验能力,在源表和目标表字段数不一致、或任务同步主键缺失等情况下,可通过映射校验功能,查看具体校验失败信息,并根据提示进行修改,优化使用体验。 实时数据采集方案新增 VeDB2Hive 通道,支持用户将 VeDB 数据同步至 EMR Serverless Spark 引擎下的 Hive 表中,满足用户对 VeDB 数据的实时分析需求。
2025/11/04 序号
功能
功能描述
相关文档
1
数据开发
手动添加上游依赖时,支持先按项目粒度筛选范围,再通过关键词搜索目标任务;同时默认过滤不可依赖的任务列表,使搜索结果更准确清晰,有效避免误选。 为保障任务操作安全,平台针对 EMR SQL、EMR StarRocks、EMR Serverless StarRocks 任务新增前置检查机制:当引擎以安全模式访问,且您对任务执行调试、上线、启用或修改运维责任人等操作时,平台将会自动检查相应责任人是否已在引擎绑定界面配置 EMR LDAP 账号映射。若未配置,平台将进行提示并拦截当前操作。 EMR Hadoop 集群的 SQL 任务,当执行引擎为 Spark、Hive 或 Presto(Presto 仅支持临时查询任务)时,将在调试概览和调度运维日志概览页显示执行详情 Tracking URL 链接,便于您跳转 Yarn UI 界面查看任务执行详情。 临时查询 MySQL 任务优化:在不同数据源接入方式下,将统一 SQL 格式处理,编辑 SQL 时无需再指定数据库名称,提升 SQL 编写效率。 项目开发人员或管理员角色支持下载已上传的通用引擎资源文件,便于开发人员在本地维护资源,提升资源文件的复用率与维护效率。 流式计算 Flink 版引擎资源来源方式新增填写“对象存储(TOS)路径”配置方式,支持直接引用对象存储中的资源文件,提供更多的资源来源选项,提升配置灵活性与操作便捷性。 项目模板管理功能新增对 EMR SQL、EMR Serverless Spark JAVA 任务的模板配置支持,可统一设置并批量修改任务的执行队列、优先级及参数,提升任务配置操作效率。 2
调度运维
优化任务实例 DAG 图展示,默认显示当前实例的 3 层上下游依赖关系(若存在);实例信息中新增“更新时间”属性,实时显示实例最新状态的更新时间。 Serverless Flink SQL、Serverless JAVA Flink 任务,在任务运维详情中,支持查看任务启动阶段、运行阶段中的关键运行事件信息,协助您在日常监控、故障排查及性能调优场景中,实时掌握任务状态、优化运行性能。优化离线任务的飞书自定义机器人 Webhook 告警卡片信息展现,告警卡片中新增可查看任务的报警时间和当前已重试次数等信息,帮助您在接收告警时,快速判断告警时效性,提升任务告警响应效率。 3
控制台
为增强加密参数安全性,项目控制台优化加密参数展示。所有加密参数默认以密文形式展示;仅创建者和主账号可通过编辑操作查看明文,其他账号无查看权限,有效提升加密参数的安全性。 在原有角色类型上,项目成员增加了运维角色,来满足项目管理中更多的权限控制。运维角色能查看任务配置,对任务进行开启、关闭、回溯、修改责任人等一系列运维操作,但无任务编辑、告警配置等权限。明确区分项目内不同角色的分工,提升项目开发效率。 新增开服区域华东2(上海)自动驾驶云1 ,为白名单开通状态,需提工单申请开通使用。 4
数据地图
LAS Catalog 表的详情页增加展示参数存储路径 ,可以查看表的存储路径。 LAS Catalog 表的上下游血缘关系不再局限于同一类型,可兼容多种 LAS Catalog 表类型。 5
数据质量
在数据监控、探查、对比功能下,EMR Hive 引擎支持自行指定运行队列,用户可选择项目集群下已绑定的计算队列。 6
数据安全
Dataleap 用户与 ByteHouse CE 角色关联优化:用户组管理列表增加了用户组ID ,与 ByteHouse CE 控制台的角色名相对应,方便用户查找数据。 库表权限设置文案优化:设置资源申请权限时,将参数“禁止类型”改为“限制申请权限的实体”,避免产生误解。 7
数据服务
新增开服区域华东2(上海)自动驾驶云1 暂不支持公网配置功能,文中增加了相应的限制说明。
2025/10/11 序号
功能
功能描述
相关文档
1
数据开发
在复制 EMR StarRocks SQL 任务时,可直接将 EMR StarRocks 引擎实例更改为 EMR Serverless StarRocks 引擎,便可快速创建对应的 EMR Serverless StarRocks SQL 任务。满足 StarRocks 实例切换的场景需求,有效提升任务开发效率。 在 Flink Batch SQL 任务的日志详情概览页中,新增 Tracking URL 链接的查看入口,支持在调试、调度运维执行过程中,便捷地查看任务执行的日志详情,优化用户查看日志的操作体验。 任务开发界面的任务目录树搜索管理中,数据集成任务可按照来源/目标端的数据源类型进行筛选,支持用户快速筛选出对应数据源类型下的数据集成任务,提升用户的搜索效率。 在多环境项目下,针对单任务管理操作,当执行删除任务时,新增对开发环境和生产环境任务关闭状态的校验,优化删除任务的使用体验。 EMR Serverless Spark/Presto 引擎类型的元数据列表、函数库中,优化展现 LAS Catalog 数据目录层级信息,便于用户快速定位多个数据目录。 2
数据运维
数据回溯范围是单任务/多任务及其下游时,支持选择“依赖检查”项,可按需选择回溯任务,是否要遵循上游依赖设置,您可在上游无需回溯时,直接跳过上游依赖检查,提升任务回溯效率。 3
控制台
项目控制台同步设置优化,跨项目/区域同步能力新增支持数据集成任务的数据源映射功能。同步操作后,目标项目集成任务中的数据源信息将自动更新为目标项目已创建的数据源,提升目标项目任务配置效率。 Serverless Spark 资源新增绑定管理功能,可以限制项目绑定队列,避免资源过度占用。 消息中心的账号映射改成账号映射管理,用户可以自行进行飞书账号映射管理,来接收飞书通知。 4
数据地图
资产圈选页面调整,将运行按钮移到比较明显的位置,便于用户操作。 EMR Hive、LAS Catalog 视图表隐藏数据预览展示。 对移除资产的文案提示进行了优化。 5
数据安全
安全标签>扫描管理 功能,通知打标支持飞书消息通知。6
数据质量
监控报警时,飞书群内@非bytedance.com结尾的用户也可收到报警卡片。 7
数据集成
解决方案优化:
在解决方案执行详情界面中,对解决方案相关任务的执行日志查看入口进行展示优化。通过精简日志查看的跳转路径,进一步提升用户查看执行日志的操作体验。 实时整库、实时分库分表、准实时整库同步解决方案新增自定义任务名称配置,支持通过引用参数变量的方式来自定义配置解决方案生成的任务名称,便于您后期可依据自定义的任务名称快速查找任务进行维护。 用户对离线整库同步解决方案在进行删除、提交停止等运维操作时,若方案内的周期性任务存在周期调度启用状态或有上下游依赖,系统将弹窗提醒,提升整体操作体验。 解决方案新增 job.writer.table_without_primary_key_strategy高级参数。可用于数据源目标端为 ByteHouse CDW 和 ByteHouse CE,通过 DDL 策略创建无主键表时,可选择是否忽略无主键表的 DDL 策略建表,避免解决方案执行失败。 解决方案实时任务,调整其默认脏数据策略:改为默认禁止脏数据,即 job.common.dirty_record_skip_enabled=false。调整后可增强脏数据的感知力度,进而避免因忽略脏数据的情况,导致数据丢失。 当集成任务写入 ByteHouse CDW 库表的数据量较大时,建议参考 ByteHouse 建表配置最佳实践 操作进行手动建表,提升任务执行效率。 TOS 数据源新增支持读取 Zip 压缩文件能力,支持您在 TOS 数据源读取配置中选择 Zip 压缩文件进行数据同步。 在各数据源类型配置数据过滤语句时,可视化配置界面的校验功能暂时下线优化,待深度优化完成后将重新上线,以提升用户使用体验。 流式集成通道任务与解决方案实时增量同步任务,优化了资源设置方式。单 TaskManager CPU 数量、内存大小及 JobManager CPU 数量、内存等参数,可按固定比例配置,便于用户合理分配资源,也能提升使用体验。 任务开发界面的任务目录树搜索管理中,数据集成任务可按照来源/目标端的数据源类型进行筛选,支持用户快速筛选出对应数据源类型下的数据集成任务,提升用户的搜索效率。 流式集成任务运维中心的执行日志模块,新增支持查看任务历史实例的执行日志;当系统自动发生重启时,用户可清晰感知该情况,且可查看历史实例的执行详情,提升任务运维效率。
2025/08/31 序号
功能
功能描述
相关文档
1
数据开发
数据开发 Python 任务新增对 Python 3.12 版本的支持,满足您在该 Python 版本环境下的数据处理需求。 Notebook 任务中 Spark on EMR Serverless 的 Kernel 类型的使用,取消产品白名单限制,所有用户均可直接使用该 Kernel 类型进行开发,提升使用体验。 临时查询 EMR Serverless Spark SQL、EMR Serverless Presto SQL 类型、数据开发 EMR Serverless Spark SQL 任务类型,新增支持调试成功或失败的消息通知能力,可将任务调试成功或失败的消息,通过邮件方式发送给调试发起人,提升用户体验。 数据开发元数据列表中,新增 ByteHouse CDW 引擎下视图形式的元数据查看,可查看 ByteHouse CDW 视图的字段名称、字段类型等信息。 EMR Hadoop/Doris/StarRocks/Serverless StarRocks/Serverless Spark 引擎任务类型,优化执行日志中下发至引擎侧的任务名称展示形式,格式优化为“任务名称_任务ID_执行实例ID_执行账号ID_dorado_任务类型”,方便用户在引擎侧的作业实例管理界面,通过任务名称信息快速进行相关日志的搜索,以提升日志查询体验。 2
数据集成
ByteHouse CE 数据源写入时,新增一键建表、写入前准备语句和写入后准备语句功能,完善数据写入 ByteHouse CE 表的能力。 ByteHouse CDW、ByteHouse CE 数据源,源端字段映射读取时支持配置常量和数据库函数能力,满足更多数据读取场景。 ByteHouse CDW 数据源补充支持现有高级参数 job.common.global_timezone, 可通过该参数来指定特殊场景中的数据库时区,支持配置时区偏移量。 在 DataLeap 多环境项目中,环境映射时支持数据集成资源组在不同环境中进行映射关系配置。使开发和生产任务执行时,实现集成资源组的隔离,为同一套任务在不同环境中执行提供了便利,有效地提升任务配置效率。 在多环境项目下,Hive 数据源通过 EMR Serverless Hive 接入方式,并将任务发布至生产环境时,支持根据任务配置的源端生产表信息来自动创建目标端 Hive 生产表,提升目标表创建效率。 Hive 数据源,通过流式集成任务高级参数job.writer.dump.file_name_state.version配置,支持多个实时数据集成任务同时向同一张 Hive 表中写入数据,满足特殊场景下的数据写入需求。 实时分库分表解决方案配置读取数据时,优化solution.reader.ddl.external_schemas 高级参数配置方式,新增 “*” 的方式来匹配源端表名,提升参数配置便捷性。 MySQL 数据源新增 job.reader.session_properties高级参数,可自定义 session 参数,提升数据读取效率。 StarRocks 数据源写入数据优化:
新增支持 Batch Replace 写入能力,支持非分区表、动态分区表用 Batch Replace 方式写入数据,提升数据写入效率。 补充 Streamload 方式写入数据的可选高级参数。 离线同步任务读取 MongoDB 5.X 版本中时序表数据,可添加该高级参数 job.reader.split_mode=paginating后读取,完善时序表数据读取能力。 3
数据地图
编辑 EMR Hive 表时,支持Excel模式。 ByteHouse CDW 表详情页提供两种页面展示样式:按照数据地图分区字段单独展示和按照引擎原始字段顺序展示,可以切换查看。 ByteHouse CDW 产出登记支持视图,需手动执行元数据采集,才能将视图数据同步至 DataLeap。 各类型数据详情页的信息搜索均为“非大小写敏感”。 4
数据质量
一个 EMR_SERVERLESS_SPARK 指定队列下可包含多个不同的计算组,支持按计算组选择,选项内容格式为队列-计算组 。 5
控制台
2025/07/31 序号
功能
功能描述
相关文档
1
数据集成
写入 Hive 数据源时,暂不支持多个离线/实时数据集成任务同时向同一张 Hive 表中写入数据,配置界面优化相关提示,避免误操作。 StarRocks 数据源在数据集成任务中,新增支持配置数据源字段的类型为 Array、Map 类型,以满足读取 Array、Map 类型字段的数据需求。 HDFS 数据源新增支持读取 CSV 格式的数据类型,满足读取 CSV 格式数据的场景需求。 FTP/SFTP 数据源新增 job.reader.skip_if_path_not_exists=true高级参数,当 FTP/SFTP 上读取的文件不存在时,可跳过该文件,任务执行成功。 TOS 数据源以白名单形式支持 Proton 类型的读写操作,满足存算分离场景下的数据读写需求。 脚本模式(DSL)任务,目标端为 ByteHouse CDW、ByteHouse CE 数据源时,新增支持任务自动产出登记目标表。以支持下游 SQL 任务配置调度依赖时, 能够借助依赖推荐 功能,直接将数据集成任务作为上游,来提升任务依赖配置效率。 在解决方案中 MongoDB 数据源选择数据集时优化展现效果,仅展示当前数据源配置下用户有权限读取的数据集,其余数据集不予展示。 解决方案新增修改责任人 能力。项目管理员 ,或是当前解决方案的责任人 且在项目内具备开发 角色的用户可执行修改操作,避免在解决方案创建人离职后,出现无法提交执行、停止等针对解决方案的操作,进而提高解决方案的运维效率。 离线整库解决方案在目标数据源为 ByteHouse CDW 时,支持将数据写入 ByteHouse CDW 分区表。可在方案中,配置目标表的分区字段信息,以满足离线整库写入 ByteHouse CDW 分区表的场景需求。 实时分库分表解决方案全量同步模式中,新增支持从 src_meta_info 元数据字段提取源表的库表名称,用于标识某条数据是从哪个实际上游表输入的,也可避免多个分表的数据出现重复 id 导致的写入出错等问题。 实时任务解决方案中,新增“HDFS 分区提交时跳过的文件数” DUMP 指标,以便于在任务执行过程中,能够及时发现跳过文件数过多的情况,进而及时排查问题,降低数据丢失风险。 2
数据开发
Notebook 任务开启 Kernel 后,如果任务无人操作执行,则会在 3 小时内自动关闭 Kernel,释放资源给其他任务使用。 EMR Serverless Spark 引擎任务通过智能运维助手,如果 EMR Serverless Spark 引擎任务中存在数据倾斜场景时,任务执行结束后,可通过智能运维助手,给出数据倾斜相应的诊断建议及解决方案,帮助用户快速定位问题,并优化任务性能。 智能调试诊断插件的时间轴功能中,支持查看任务的执行分析。可在执行分析窗口中,查看实例执行失败的诊断信息,以及 Spark UI 链接中的 Stage 视图、DAG 视图信息,帮助用户快速定位问题。 EMR Serverless Spark JAVA 任务,语言类型为 JAVA 时,新增支持使用在 DataLeap 中已上传的 JAR 资源包,便于用户在 DataLeap 项目内统一进行资源包的管理,提升任务配置效率。 3
任务运维
在运维概览页面的“今日实例执行分布”统计模块中,新增查看更多日期实例的入口。通过该入口,可查看除当日以外更多日期的实例执行统计情况,从而提高更多时间范围内任务实例的运维效率。 运维概览
4
数据地图
EMR Hive表支持批量管理项目操作。 ByteHouse CDW支持生命周期TTL管理。 关闭数据检索页面的问答模式检索入口,新增数小秘智能检索,为定向邀测功能。 5
数据安全
安全标签>扫描管理 功能,通知打标增加支持按owner飞书群通知。ByteHouse CE 的资源权限列表支持显示当前所有获权方资源列表,目前所有数据源类型的权限列表均默认显示当前所有获权方列表。 6
数据质量
双数据源校验支持 ByteHouse CE 数据源。 用户账号生命周期结束后,所有质量规则仍会保留,但处于关闭状态无法使用。待重新购买服务后,需重新开启规则才可使用。 ByteHouse CDW 支持在规则类型中选择模板规则。 飞书群消息支持@群用户,该用户绑定的邮箱后缀必须为@bytedance.com 7
控制台
服务购买智能化去掉找数助手功能,且智能化增值服务不再需要白名单申请。
2025/06/30 序号
功能
功能描述
相关文档
1
数据开发
EMR Serverless Spark SQL 任务解析功能优化支持 UDF 解析能力,支持用户在任务中使用 UDF 函数,并能正常进行 SQL 解析与依赖推荐,提升任务配置效率。 流式计算 Flink 版任务类型(如 Flink Batch SQL、Java Flink Batch)、EMR Serverless 任务类型(如:EMR Serverless Spark SQL/JAVA、Presto SQL)优化执行日志详情展现,支持用户在执行日志中查看对应引擎中的 JobManager、TaskManager、Submit、Driver 等日志,方便用户排查问题。 在 SQL 解析出现异常(如字段不存在或编辑错误的情况)时,优化调度依赖中的依赖推荐功能,使其仍能够可正常进行,不阻塞任务依赖推荐对上下游的配置,提升用户体验。 流式计算 Flink 版引擎资源上传时,支持上传大于 300M 的资源包,提升用户体验。 DataLeap 智能开发助手、运维助手、找数助手取消白名单限制,支持所有用户使用;并优化 DataLeap 服务版本,下线大数据集成、湖仓一体 的服务版本,区分服务版本功能,提升用户体验。 EMR Serverless Spark SQL/Java/Python 任务类型,在任务产出登记时,新增以 LAS Catalog 中数据目录维度进行登记,并且在 SQL 任务开发、依赖推荐、血缘解析时,均支持 catalog_name.db_name.table_name 三段式格式的解析,保障数据登记的正确性。 EMR Serverless Spark SQL 任务,可直接通过 SQL 语句,创建 Iceberg、Paimon 类型的数据表,并进行数据加工操作。 EMR Serverless Spark LAS Catalog Sensor 任务类型,当数据来源为自定义 方式时,需指定要检测的 LAS Catalog 数据目录信息,以数据目录维度筛选对应的库表信息,提升任务配置效率。 2
任务运维
流式计算 Flink 版引擎的实时任务运维详情信息中,白名单 方式支持查看 Serverless Flink SQL、Serverless JAVA Flink 任务执行时的 CPU、内存实际使用消耗情况,帮助用户了解任务实际资源使用状况,视情况进行资源调整。 实时任务运维列表中,新增展现任务修改日期、流任务启动/停止时间及任务执行资源申请入口,提升用户任务调优便捷性。 离线任务实例运维列表中,新增调度资源组、计算资源组筛选项,方便用户根据任务资源组进行过滤,快速定位资源组所绑定的任务,提升任务运维效率。 离线任务失败的飞书告警卡片中,新增失败任务诊断、重跑、切换队列重跑等操作,方便用户直接在告警卡片中对任务进行操作,提升任务运维效率。 3
数据集成
Hive 数据源使用 EMR Hive 接入方式时,新增支持配置 Access Key ID、Secret Access Key 信息。当任务读写的 Hive 数据表为 Hive on TOS 时,配置的 AK/SK 信息可用来进行 TOS 访问鉴权,避免因权限问题导致任务执行失败。 StarRocks 数据源接入方式选择 EMR StarRocks 时,开启高可用的 StarRocks 集群,能够按需指定访问高可用服务的 IP 地址,来保障集群高可用性,提升访问成功率。 TOS 数据源可通过设置高级参数 job.reader.enable_success_file_check=true,来检查前置 Success 文件是否就绪。当检查的 Success 文件就绪时,任务才会执行成功。 TOS 数据源中新增 job.reader.csv_delimiter_ascii 高级参数。当 CSV/Text 文件中的数据分隔符为不可见字符 ASCII 码时,可通过该高级参数,将其设置为对应字符的 ASCII 码,提升文件读取效率。 MySQL 离线集成写入通道,支持通过高级参数配置,将源端表或者 TOS 文件中的数据,写入 MySQL 的多张分表中,满足用户写入 MySQL 分表的需求。 数据源以连接串方式注册时,新增支持自定义域名的配置方式,可通过火山引擎私网解析(Private Zone)中配置映射的自定义域名信息,来访问目标数据源,满足自定义域名连接场景。 ByteHouse CDW 读取时,新增 job.reader.output_null_value高级参数。支持在读取 Nullable(T) 类型的数据时,若配置 job.reader.output_null_value=false 参数,则此时源端读取的 null 值将返回 0。 Redis 数据源新增 job.reader.redis_scan_mode 高级参数,可以通过该参数,来指定读取 Redis 数据时,采用 scan 模式读取数据,分批次去读取 Key,每批次读取一部分内容,提高同步性能。 实时整库同步新增支持读取 ByteHouse CDW 数据源类型。ByteHouse CDW 集群的引擎版本在 2.3.1 及以上时,可用 CDC 方式读取 ByteHouse CDW 数据表,将数据写入 StarRocks 或 Doris 数据表。 离线整库同步解决方案:在映射配置的库表映射列表里,新增全量同步与清表策略功能。用户可按需选择是否开启全量同步,或者在集成任务执行前开启清表策略,以此提升用户的配置效率。 数据同步解决方案列表界面,优化方案的删除操作,支持将已解绑后的方案进行删除。 4
数据地图
EMR Serverless Starrocks表支持显示最近30天查询表的次数。 对接 LAS Catalog 引擎,创建库表时增加数据目录配置。 LAS Catalog 支持创建开源paimon和iceberg格式的表。 5
数据安全
对接 LAS Catalog 引擎,LAS Catalog 库表增加数据目录配置。 数据开发配置项目成员后,用户信息同步到数据安全用户组中有延迟。 6
数据质量
7
控制台
页面改版优化:
服务购买页面:改版,优化购买流程;撤销智能助手的开白限制;增加数据标准开白申请;并增加快速跳转按钮返回产品页 、租户控制台 等。 概览页面:目录栏的 DataLeap 新增产品模块下拉选项,可以快速跳转到相应产品页。 项目控制台各功能页面:增加快速跳转按钮前往IDE 、租户控制台 。 调整项目绑定的引擎的排列顺序和相关说明。 数据开发配置项目成员后,增加提示用户信息同步到数据安全用户组中有延迟。 独享调度和独享计算资源组的资源数量上限调整变大,并增加查看运行实例的功能。
2025/06/03 序号
功能
功能描述
相关文档
1
数据集成
数据集成数据源配置,白名单 形式支持多环境模式,支持开发数据源和生产数据源进行隔离,实现同一套任务可在不同环境中执行,提升任务配置效率。 MySQL2ByteHouse_CDW 实时整库、实时分库分表通道,新增支持 Kafka、DataSail(内置 Topic) 数据源缓存配置通道,支持使用中间缓存来采集 MySQL 数据,提升采集稳定性和性能。 各解决方案映射配置流程中,高级参数设置时,新增支持 JSON 编辑方式,支持直接以 JSON 的方式来输入参数,提升配置效率。 离线整库解决方案:
目标端为 Hive(EMR Hive、EMR Serverless Hive)数据源,表建立方式为自动建表时,支持按需选择目标 Hive 表的存储格式为 Parquet、ORC、Text 格式。 新增支持 PostgreSQL2ByteHouse_CDW、Mongo2ByteHouse_CDW 通道,支持将 PostgreSQL、Mongo 数据源同步至 ByteHouse CDW 数据库中。 实时整库解决方案:
Doris 目标表自动建表时,分区字段创建方式优化,去除”分区表达式“方式创建分区字段,支持直接选择分区字段。 新增支持 Oracle2ByteHouse_CDW通道,支持将 Oracle 数据源同步至 ByteHouse CDW 数据库中。 Paimon 数据源支持单通道可视化方式流式写入,支持将 Kafka、TLS 等流式数据源中的数据同步至 Paimon 数据源中,满足单表数据流式写入场景。 Hive 数据源通过连接串方式接入自建集群时,新增支持 HDFS 方式读取 Hive 数据,完善自建集群接入的读取方式。 Hive、Iceberg 数据源配置时,支持选择 Catalog 目录信息,方便用户在指定目录下进行表筛选配置,提升配置效率。 Mongo 数据源:
可视化任务配置时,优化集合名选择方式,支持手动输入方式进行搜索,提升任务配置效率。 实时整库解决方案配置 Mongo 读取数据时,新增 solution.reader.ddl.external_schema_mode、solution.reader.ddl.external_schemas 高级参数,支持使用高级参数自定义指定在 Schema Fetcher 中获取的字段及其顺序,优化根据指定的 Mongo Schema 信息自动建表的能力。 ByteHouse 云数仓版数据源写入:
当写入方式为 JDBC 方式时,支持配置任务的“写入前准备语句”和“写入后准备语句”,可实现集成任务执行前清空目标表数据、或执行后添加执行成功标记等场景。 当写入方式为 CFS 方式时,新增 job.writer.cfs_vw_id 高级参数,当默认计算组可用资源较少时,可通过该高级参数指定 ByteHouse 云数仓版数据导入服务使用其余的计算组信息,提升任务执行稳定性。 数据转换 Transform 语句,新增支持 SPLIT、SPLIT_INDEX 函数,可通过函数实现输出 Array 类型,并写入到下游数据库中。 2
数据开发
柔佛区域支持 ByteHouse CDW 类型。 白名单 方式支持 EMR Serverless Spark、ByteHouse 云数仓版引擎,在数据开发、任务发布、任务运维及项目控制台模块中支持配置多环境隔离模式。实现在同一 DataLeap 项目中,能够使用一套任务配置,来满足开发环境与生产环境隔离执行的需求。流式计算 Flink 版引擎类型中的 Flink Batch SQL 任务新增支持上传自定义 JAR/Flie 资源包,满足复杂场景下 Flink 作业的执行。 流式计算 Flink 版引擎资源包版本管理优化,支持在删除旧资源文件并重新上传同名 资源时,Flink 中旧资源文件实际上不会被删除,新旧资源文件名默认会按照序列标识递增,从而避免未手动重启的历史任务失败。 交互式分析 Notebook 任务类型,新增支持 Bash 语言类型,支持用户在 Notebook 中执行 Shell 命令,并且支持填写自定义镜像地址,平台同时也提供了默认镜像地址,您可按需使用。 Flink Batch SQL、EMR Serverless Spark SQL 开发任务及 EMR Serverless Presto SQL 临时查询类型,优化执行日志详情展现,支持用户在执行日志中查看对应引擎中的 JobManager、TaskManager、Submit、Driver 等日志,方便用户排查问题。 Shell 任务白名单 方式支持在执行设置中选择 SSH 数据源信息,通过该方式,用户可在 Shell 任务中选择 SSH 数据源,并通过 Shell 语句访问远端 ECS 主机及执行 ECS 中的脚本,满足复杂场景下对远端 ECS 主机进行访问的需求。 3
任务运维
流式计算 Flink 版引擎下流式开发任务在单任务操作停止 时,可根据实际情况,为当前开发作业创建作业快照信息,便于后续重启任务时,可直接使用该快照信息重启。 离线/实时任务告警监控规则配置中,当接收人为飞书群时,新增支持在群聊中@任务责任人,优化告警消息提醒方式。 4
数据地图
柔佛区域支持 ByteHouse CDW 类型。 业务线增加在资产目录中的展示配置,可按需调整展示信息。 资产批量维护增加批量维护策略配置。 支持复制自动化规则。 5
数据标准
白名单 方式新增产品模块,支持数据标准域管理、数据标准、统计大盘、智能对标、系统管理等功能。
6
数据质量
7
数据安全
8
控制台
项目支持开发环境与生产环境多环境隔离模式,满足用一套任务配置,在不同的环境下,执行不同任务的需求。
2025/05/14 序号
功能
功能描述
使用文档
1
数据开发
数据开发 Notebook 调度任务类型,新增支持 Spark on EMR Serverless 的 Kernel 类型,以周期性调度的方式,定时进行数据预处理、算法开发等操作。 EMR Serverless Spark/Presto 任务类型,在查询日志中新增引擎实例 ID 信息,方便用户依据引擎实例信息,在 EMR 控制台进行问题排查时搜索。 任务调度设置的输入输出参数添加时,具体参数选择框中增加模糊搜索功能,方便用户模糊输入参数进行选择,提升任务配置效率。 函数库新增 EMR Serverless Spark/Presto 引擎相关的自定义函数创建。当公共函数无法满足业务场景需求时,可通过自定义函数构建的方式解决。在数据开发任务中,直接使用对应引擎的自定义函数,从而提升数据开发效率。 2
运维中心
实时任务运维报警监控规则中,支持 Serverless Flink SQL 任务配置业务数据延迟报警项,通过多方位地对实时任务的数据源进行监控配置,提升发现实时任务业务数据延迟的效率。
报警监控
3
数据地图
除当前已支持的LAS和emr hive引擎,其他类型的表详情页均支持SQL查询功能。 ByteHouse CE 支持引擎侧和 DataLeap 数据地图实时自动同步元数据,无需采集器采集操作。 4
数据集成
DataSail 新增 Paimon 数据源类型,支持普通通道任务可视化配置读写 Paimon 数据源、DSL 模式配置流式写 Paimon 数据源、及离线/实时整库同步解决方案写入 Paimon 数据源。 离线/实时整库同步方案新增支持写入 Paimon 数据源,支持 PostgreSQL2Paimon、MongoDB2Paimon 解决方案通道。且 PostgreSQL2Paimon 通过缓存模式读取 PostgreSQL 时,支持新增列的解决方案 DDL 策略配置。 实时整库/实时分库分表解决方案 PostgreSQL2ByteHouse_CDW 通道,新增支持新增列、修改列类型等解决方案 DDL 策略配置能力,满足更多 DDL 变更场景的数据同步需求。 离线整库同步解决方案新增自定义任务名称配置,支持通过引用参数变量的方式来自定义配置解决方案生成的任务名称,便于您后期可依据自定义的任务名称快速查找任务进行维护。 准实时整库同步解决方案新增 MySQL2Hive(EMR Serverless Hive)、Mongo2LAS 通道,支持将 MySQL、Mongo 等全增量数据通过自动建立的 Merge 任务进行合并,以满足业务准实时数据入湖需求。 独享数据集成资源组数量上限调整至 1500 台及柔佛地域支持“可用区B”区资源,您可按需进行沟通更多资源组数量,以满足您的大数据业务需求。 新增读取 Greenplum 数据源通道功能,可支持读取 Greenplum 数据并同步至其他目标端数据源,实现双向通道能力。 Hive 数据源以 HDFS 方式读取 Hive 数据时,单次执行支持同时读取多分区数据,提升分区表数据读取效率。 数据写入 Redis 的 Hash 格式时,可通过字段映射的转换模式,写 Transform 语句,将数据写入多个 Key-Value 中,示例转换语句:SELECT `name` AS `key`, '语文成绩', `语文成绩` FROM Source UNION SELECT `name` AS `key`, '数学成绩', `数学成绩` FROM Source UNION SELECT `name` AS `key`, '物理成绩', `物理成绩` FROM Source Iceberg 数据源新增支持 EMR Serverless Iceberg 接入方式,数据集成任务支持将数据写入全托管 Iceberg 表类型。 HDFS 数据源支持从配置的 HDFS 路径中读取解析分区字段数据,通过手动添加字段映射方式进行配置,将分区字段数据写入目标端数据源。 Mongo 数据源读端配置时,支持通过手动添加字段映射 `${doc}` 方式进行配置,将 Mongo 集合下的整个文档字段数据作为一个字段同步到目标端中。
2025/04/15 序号
功能
功能描述
使用文档
1
数据开发
数据开发 Notebook 调度任务和临时查询任务,当 Kernel 类型包含 Spark 参数配置时,支持引用项目参数配置。满足同一套代码处于不同执行环境时,可自动区分不同的引擎环境参数、项目参数等;或者当存在敏感信息需要通过参数传递时,也可通过项目参数 的方式进行配置。 Serverless Flink SQL、Serverless Java Flink 流式任务中包含资源引用时,如果资源文件发生更新,那么在资源库更新资源文件之后,重启 流式任务,便可使资源变更生效,提升流式任务资源变更时的任务执行效率。 2
数据地图
表详情展示字段密级,支持安全标签编辑。目前已支持的类型:EMR Hive、LAS、EMR StarRocks、EMR Serverless StarRocks、LAS Catalog、ByteHouse CE。 Bytehouse CE 建表时支持Excel模式。 亚太东南(柔佛)环境对接 ByteHouse CE 引擎。 3
数据质量
补充模板监控规则的分区表达式参数,与数据开发的调度参数相同。 亚太东南(柔佛)区域下,其他数据源监控、数据探查等功能支持 ByteHouse CE 类型。 4
控制台
亚太东南(柔佛)环境对接 ByteHouse CE 引擎。 5
数据安全
亚太东南(柔佛)环境对接 ByteHouse CE 引擎, 权限管理、风险审计、审批中心、安全标签等功能支持 ByteHouse CE 类型。
2025/03/31 序号
功能
功能描述
使用文档
1
发布中心
发布包管理中,查看发布包详情时,新增发布任务的跳转链接,在查看任务文件变更有异常后,可直接单击任务名称跳转到数据开发界面进行编辑,提升界面交互体验。 发布包管理
2
数据开发
临时查询 EMR Hive SQL、EMR Spark SQL、EMR Presto、EMR Trino 任务类型创建后,在一个任务中可自由切换 Spark、Hive、Presto、Trino 执行引擎,提升动态切换执行引擎能力和不同引擎的查询调试效率。 在离线/流式任务运维、实例运维的列表里,新增存储目录筛选过滤项。在众多任务当中,能够依据任务存放的目录位置进行过滤,从而提高任务查找的效率。 数据开发 EMR Serverless Spark/Presto 引擎元数据中,新增新建表、导入 CSV 文件的入口。导入 CSV 文件功能支持将本地 CSV 上传到对象存储 TOS Bucket 中,并通过配置 TOS2Hive 集成任务,把 CSV 数据写入到 EMR Serverless 引擎下的 Hive 表中,提升了本地数据的写入效率。 资源库中新增支持 EMR Serverless Spark/Presto 引擎下的 JAR 资源上传操作,以实现在 DataLeap 中对资源进行统一管理。 函数库中新增 EMR Serverless Spark/Presto 引擎相关的公共函数列表展现。在数据开发任务里,您可直接使用对应引擎的公共函数,从而提升数据开发效率。 流式计算 Flink 版引擎,Serverless Java Flink/Serverless Flink SQL 任务类型,在进行 Flink 参数或自定义参数配置时,支持以项目或自定义参数变量形式配置,实现同一套代码处于不同执行环境时,能够自动对不同的引擎环境参数、项目参数、自定义参数等加以区分。 3
数据地图
Las Catalog表针对datasource表类型做编辑限制,即当数据表是 datasource 表,不支持在数据地图 侧编辑表字段信息。 Bytehouse CDW 建表时,可设置为分区的字段不再限制为date类型,可以选择任意字段。
2025/03/17 序号
功能
功能描述
使用文档
1
数据集成
新增 DataSail 准实时整库同步 PostgreSQL2LAS 解决方案,增量数据通过数据采集方案实时写入对应的 Log 表,Log 表再定期与 Base 表进行 Merge 操作,将最终增量数据写入 Base 表中,进行全增量数据合并,提升全量+增量数据迁移效率。 DataSail 解决方案列表界面,在方案运维操作中新增了方案解绑能力。该功能支持将列表中的方案置为只读状态,此后集成任务的编辑、维护等操作可移步至数据开发界面进行,从而确保两个界面中的同一任务配置保持一致。 实时整库同步解决方案新增 TiDB 数据源类型,支持 TiDB 数据写入 ByteHouse 企业版(ByteHouse CE)数据库表中;离线单通道模式支持读取和写入 TiDB 数据源类型。 数据写入 LAS 目标数据源时,新增支持在开发界面一键建表的能力 ,提升目标表创建效率。 在 DataLeap 项目开启数据源开发与生产环境隔离的情况下,对开发环境数据源配置信息的填写方式进行优化,使其支持一键复制生产环境数据源配置信息,提升开发环境数据源信息的配置效率。 Redis 数据源写入数据时,若写入字段类型为 set、hash、sorted_set 时,支持在写入数据前删除相同的 redis key 数据。 LarkSheet 数据源新增离线写入通道,支持将其他源端的数据写入到飞书电子表格和多维表格中。 2
数据开发
Shell、Python、Notebook任务类型,完善任务产出数据登记,支持登记 EMR Serverless Spark、EMR Serverless Presto、EMR Serverless StarRocks、ByteHosue 等所有引擎,便于后续下游任务维护数据血缘关。 数据开发资源库优化资源上传能力,不同项目下支持上传相同的资源文件,提升不同项目下的资源文件复用率。 数据开发元数据界面,新增支持 ByteHouse CE 引擎下的数据库表信息查看,在此可根据 ByteHouse CE 的库表信息直接一键生成相应的数据查询语句。 3
控制台
项目控制台新增智能助手控制配置项。运维助手控制台新增支持诊断场景自定义。 推送渠道配置页面全面上线,且调整获权方配置要求(获权方可以不配置飞书账号映射,即获权方没有飞书账号映射时,也不影响DataLeap 数据安全 支持飞书审批工单。) 4
数据安全
ByteHouse CE/CDW表权限有效期支持自定义 优化分类分级规则配置:新建标签时只有选内容才需配置阈值,而字段名和描述不会触发该配置;调整阈值配置信息。 新增系统管理菜单项,可按需进行不同管理员角色的配置。 推送渠道配置页面配置飞书账号映射后,审批工单支持飞书审批。 拆解、调整审批工单文档结构、内容等。 5
数据质量
2025/03/07 序号
功能
功能描述
使用文档
1
数据开发
【白名单】DataLeap 方式开通智能开发助手、智能运维助手、智能找数助手计费项服务,平台将根据模型的输入、输出的总 Token 数进行按量计费; 【白名单】DataLeap 智能开发助手接入DeepSeek R1 模型,提升数据处理和智能问答分析能力; 【白名单】数据地图检索数据中新增智能找数助手,通过搜索库表信息关键词或采用智能问答模式,快速检索目标表。 2
控制台
【白名单】DataLeap 支持开通智能开发助手、智能运维助手、智能找数助手三款计费项服务,平台将根据模型的输入、输出总 Token 数进行按量计费。 通过对 Hadoop 类型集群部署 Presto 服务,DataLeap 数据安全 支持半托管 Presto 的库表权限控制。 3
数据地图
【白名单】开通智能找数助手后,支持智能问答模式检索数据。 LAS Catalog 表支持 TTL 生命周期管理设置。 4
数据安全
2025/02/12 序号
功能
功能描述
使用文档
1
数据集成
独享数据集成资源组运行实例窗口,优化查看任务 CPU、内存申请量与使用量方式,默认不全选当前页的申请量与使用量,提升勾选查看效率; 写入数据集成 EMR Serverless Hive(LAS Catalog)数据源时,支持通过选择的源表字段信息,在数据地图中实现快速建表能力,提供多种建表方式; Oracle 数据源支持配置分库分表形式读取源端数据源,提升 Oracle 分库分表配置效率。 MySQL、Oracle 分库分表配置,支持手动添加 ${database}_${table} 或 ${database}.${table} 形式的常量字段,将分库分表各自的来源库表信息,写入到目标表字段中,方便在目标表中区分数据的来源信息。 在读取Hive数据源时,可支持对多个表分区数据的读取,并将这些数据写入目标。 MaxCompute 数据源支持以 insert overwrite 方式向非分区表中写入数据,同步过程中将自动清除源表中的原有历史数据。 实时整库同步、实时分库分表解决方案通过数据缓存方案配置时,新增支持数据转换能力,满足各类解决方案缓存场景下的数据转换需求。 实时整库同步解决方案中,源表和目标表映射关系配置时,支持全屏显示展示后进行表映射配置,以便更清晰地查看源表与目标表的映射关系信息,提升任务配置效率。 实时整库/实时分库分表 PostgreSQL(带Kafka缓存)2StarRocks、PostgreSQL(带Kafka缓存)2ByteHouse_CDW 通道,新增支持新增列、修改列类型等 DDL 配置能力; 2
数据开发
数据开发任务发布,新增跨区域同步任务配置,可将当前地域中已发布的任务,同步到其他地域下,提升跨区域任务同步效率。 Serverless Flink 引擎流式计算作业,在创建作业快照界面,新增停止任务 按钮,在确保有最后一个快照是成功的情况下,您可在此停止正在运行的流式作业。
2025/01/16 序号
功能
功能描述
使用文档
1
数据开发
函数库新增 ByteHouse 云数仓版公共函数。在 ByteHouse CDW SQL 任务中,您能够直接使用相关函数,从而提升数据开发效率。 运维中心资源运维界面中,显示当前独享计算、调度资源组已绑定哪些 DataLeap 项目,提升资源组运维效率。 新增数据开发全流程引导介绍,涵盖数据开发、数据集成任务创建流程,帮助您快速熟悉产品使用流程,提高开发效率。 2
控制台
引擎绑定时,随机生成的密码会发送到IAM账号邮箱;子账号可以查看自己的密码。 开通的服务和资源组的自动续费、手动续费调整优化;tab页签调整大小。 支持跨区域同步设置。 3
数据安全
LAS Formation 改名为 LAS Catalog。 数据脱敏、加解密支持 LAS Catalog 类型。 审批人收到的权限申请邮件增加跳转链接。 4
数据地图
LAS Formation 改名为 LAS Catalog。 资产管理新增规则维护功能。 增加了模型规范化建表的管理功能,支撑各业务线的表命名规范性。 数据检索首页改版。 血缘图谱更名为血缘应用。 DB管理、资产管理文档结构、内容优化。 5
数据质量
双数据源校验支持MySQL连接串(即MySQL本地)、Oracle连接串(即Oracle本地)两种类型。