本文将为您介绍数据集成任务,在不同场景下所使用到的高级参数配置及其相关说明。
按需已创建 离线集成任务、流式集成任务、解决方案任务等任务类型。
离线任务运行参数、数据源相关参数和资源使用参数均配置到下图红框处。
DataSail 解决方案高级参数设置,您可在方案的资源组高级配置中进行设置。
参数名称 | 参数说明 | 默认值 |
|---|---|---|
job.common.dirty_record_skip_enabled | 是否跳过脏数据。 | true |
job.common.global_timezone | 该参数可定义全局的默认时区。默认值为 Asia/Shanghai,您可在特殊场景中定义数据库的时区信息。 | Asia/Shanghai |
| 读写限速参数,每秒读写条数限制,默认值 -1,代表不限制;配置大于 0 时,就开启条数限制。 | -1 |
| 读写限速参数,每秒读写 bytes 限制,默认值 -1,代表不限制;配置大于 0 时,就开启限制。 | -1 |
| 连接器的读并发和写并发,只适用于离线任务。 | 无默认值,系统根据数据量大小自动推算并发数。 |
job.writer.case_insensitive | 大小写不敏感。 | true |
job.writer.pre_sql_list | 写入数据源前置处理 SQL List ,格式是 json 数组,如: | 空 |
参数名称 | 参数说明 | 默认值 |
|---|---|---|
job.common.global_parallelism_num | 连接器的全局并发数,只适用于流任务。
| MQ Partition 个数 / 4 |
job.common.checkpoint_interval | 每次 Checkpoint 时间间隔,单位为毫秒,默认 900000 毫秒(15分钟)进行一次 Checkpoint,只适用于流任务。 | 900000 |
job.common.checkpoint_timeout | Checkpoint 超时时间,单位为毫秒,只适用于流任务。 | 600000 |
实时整库中离线全量同步参数:
参数名称 | 参数说明 | 默认值 |
|---|---|---|
job.common.is_use_batch_mode | 是否 batch 模式:
| true |
job.reader.enable_string_compatible | PostgreSQL2Hudi 实时分库分表同步解决方案中,若源端存在当前不能识别的 postgre 数据类型时,您可根据实际业务情况添加该参数,来判断是否将其转换为 string 类型。
说明 该参数仅适用于 PostgreSQL2Hudi 实时分库分表同步解决方案。 | false |
job.reader. add_zone_offset_to_zero_timestamp | 在实时整库全增量方案中,若源端表存在不同类型的时间字段(含时区与不含时区并存),可能导致时间字段在转换为时间戳时处理逻辑不一致,进而引发目标表时间值不一致的问题。 | 无 |
job.writer.date_precision | 实时整库/分库分表解决方案在目标端为 LAS 数据源,且源端 datetime 类型时间戳字段需写入目标端 bigint 类型字段时,方案生成的批作业将默认增加高级参数 | 当前说明场景中默认值为 millisecond;其余场景默认值为 second。 |
实时整库中实时增量同步参数
参数名称 | 参数说明 | 默认值 |
|---|---|---|
job.common.checkpoint_interval | 设定 Checkpoint 刷新时间。 | 900000 |
job.reader.poll_interval_ms | 设置读 binlog 的刷新时间,默认 500 毫秒。 | 500 |
job.reader.debezium |
| - |
job.reader. add_zone_offset_to_zero_timestamp | 在实时整库全增量方案中,若源端表存在不同类型的时间字段(含时区与不含时区并存),可能导致时间字段在转换为时间戳时处理逻辑不一致,进而引发目标表时间值不一致的问题。 | 无 |
job.writer.table_without_primary_key_strategy | 当解决方案目标端为 ByteHouse CDW 和 ByteHouse CE,且源端表为无主键表,此时通过 DDL 策略自动创建无主键表时,可配置该参数,具体值说明如下:
| skip |
solution.writer.common.ddl.bytehouse.enable.binlog | 在使用实时整库同步解决方案自动创建 ByteHouse CDW 表时,若要使该表后续具备 Binlog 读取能力,则需要手动添加高级参数 | - |
solution.reader.ddl.external_schema_mode | 解决方案支持灵活的 Schema 定义,可通过该高级参数,用于指定需要在 Schema Fetcher 中获取的字段及顺序。取值说明如下:
| MERGE |
solution.reader.ddl.external_schemas | 自定义源端 Schema 字段信息,示例如下: 说明 实时分库分表解决方案中,Mongo Schema 字段信息中的源表名信息,可以是“”的形式,表示所有源表均可匹配该字段信息。如下方示例中表名 test.dts_mongo_test,可将其填写为 “”。
| 无 |
Flink 运行参数表:
参数名称 | 参数说明 | 默认值 |
|---|---|---|
taskmanager.memory.managed.size | 每个 Task Manager 的托管内存占总内存大小。 | - |
taskmanager.memory.network.fraction | 每个 Task Manager 的网络内存的占比。 | - |
说明
资源使用参数只适用于离线集成任务。
流式集成任务的资源参数,可按照上方【流式集成任务配置说明】章节中的介绍,直接在页面中选配即可。
参数名称 | 参数说明 | 默认值 |
|---|---|---|
job.common.flink_tm_vcores | 每个 Task Manager 使用的 CPU 核数。
| 1.0 |
job.common.slots_per_tm | 每个 Task Manager 默认 slot 的数量。 | 2 |
job.common.flink_tm_slot_memory | 每个 Task Manager 中的各个 slot 的内存大小,单位为 MB。
| 2048 |
job.common.flink_tm_task_off_heap_memory | 每个 Task Manager 的堆外内存占总内存的比例。 | 0.125 |
job.common.flink_tm_managed_memory_ratio | 每个 Task Manager 的托管内存占总内存的比例。 | 0.2 |
job.common.flink_tm_network_max | 每个 Task Manager 的网络内存的最大值,单位为 GB。
| 2g |
job.common.flink_jm_vcores | Flink Job Manager 的 CPU 核数。
| 1.0 |
job.common.flink_jm_memory | Flink Job Manager 的总内存大小,单位为 MB。
| 4096 |
job.common.flink_jm_off_heap_memory | Flink Job Manager 的堆外内存占总内存的比例。 | 0.125 |
读取 ByteHouse_CDW/CE 时,支持以下高级参数,您可根据实际情况进行配置:
参数名称 | 描述 | 默认值 |
|---|---|---|
job.reader.split_config | 设置任务分片数量配置参数。 | 分片数是和并发数相同 |
job.reader.string_split_size | 设置分片大小。
| 1000000 |
job.reader.customized_connection_properties | 读取 ByteHouse 超时设置参数。 | |
job.reader.output_null_value | ByteHouse CDW 中读取 Nullable(T) 类型的数据时,没有具体值的行将默认读取返回为 | true |
job.reader.use_local_split | 读取 ByteHouse CDW/CE 数据时,若配置的切分键中包含空值时,可以使用该高级参数,避免数据丢失或数据重复情况。 | 无 |
批式写入 ByteHouse_CDW/CE 时,支持以下高级参数,您可根据实际情况进行配置:
参数名称 | 描述 | 默认值 |
|---|---|---|
job.writer.flush_interval | 写入 buffer 的刷新时间,默认 60000 毫秒 | 60000 |
job.writer.buffer_count | 写入 buffer 记录条数,默认 8192 | 8192 |
job.writer.query_timeout | 设定查询超时退出时间,默认 30000 毫秒 | 30000 |
job.writer.skip_delete_task | 写入 ByteHouse CDW 是通过导入任务方式,默认任务执行完,再删除导入任务,通过此参数,您可设置是否跳过删除导入任务 ; | false |
job.writer.cfs_write_batch_size |
说明 该高级参数,需配合 CFS 写入方式进行使用。 | 4096/8192 |
job.writer.cfs_vw_id | 当选择 CFS 方式写入 ByteHouse 云数仓版时,建议在自定义参数设置中添加该高级参数,指定数据导入服务所使用的计算组信息。格式如下: | 无 |
job.writer.bh_ce_partition_type | 显示的指定 ByteHouse 的分区字段为 string 类型,当分区字段使用函数时,需要使用此高级参数函数。 | string |
job.writer.loading_mode | 高级参数 job.writer.loading_mode 可设置为 FULL_REFRESH 或 INCREMENTAL,默认为 INCREMENTAL:
说明
| INCREMENTAL |
job.writer.extraProperties | 添加此参数,数据导入 ByteHouse CDW 时,支持原子性导入数据。 | 无 |
job.writer.bh_connection_properties | Map<String,String> 类型。 说明 该高级参数,需配合 JDBC 写入方式进行使用。 | 无 |
job.writer.session_properties | Map<String,String> 类型。 | 无 |
job.writer.pre_sql_list | 写入 ByteHouse CDW 数据源前置处理 SQL List ,格式是 json 数组,多条执行语句可用逗号分隔。如: 说明 该高级参数,需配合 JDBC 写入方式进行使用。 | 无 |
job.writer.virtual_warehouse | 可通过该高级参数,指定 ByteHouse CDW 中任务导入所需的计算组信息。配置示例如: | 无 |
参数名 | 描述 | 默认值 |
|---|---|---|
job.reader.case_insensitive | 读取数据时字段大小写是否需要敏感。 | true |
JSON 数据格式相关参数:
参数 | 描述 | 默认值 |
|---|---|---|
job.common.case_insensitive | JSON 内容解析时是否对字段 Key 大小写敏感。 | true |
job.common.support_json_path | 是否支持带 | false |
job.common.json_serializer_features | Datasail 使用 fastjson 解析 JSON 内容,用户可以通过此参数设置 JSON 解析的 features,详情参考 SerializerFeature - fastjson 1.2.83 javadoc。多个 SerializerFeature 使用逗号分隔。 | 无 |
job.common.convert_error_column_as_null | 是否将类型转化失败的字段默认置为 null。 | false |
CSV、TXT 数据格式相关参数:
参数 | 描述 | 默认值 |
|---|---|---|
job.common.csv_escape | CSV 的 escape 字符 | 无 |
job.common.csv_quote | CSV 的 quote 字符 | 无 |
job.common.csv_with_null_string | 将 CSV 中的这个字段值视为 null | 无 |
其余参数:
参数 | 描述 | 默认值 |
|---|---|---|
job.reader.skip_if_path_not_exists | 当 FTP/SFTP 上读取的文件不存在时,是否跳过该文件。默认不跳过,任务失败。 | false |
参数 | 描述 | 默认值 |
|---|---|---|
job.common.case_insensitive | JSON 内容解析时是否对字段 Key 大小写敏感。 | true |
job.common.support_json_path | 是否支持带 | false |
job.common.json_serializer_features | DataSail 使用 fastjson 解析 JSON 内容,用户可以通过此参数设置 JSON 解析的 features,详情参考 SerializerFeature - fastjson 1.2.83 javadoc。多个 SerializerFeature 使用逗号分隔。 | 无 |
job.common.convert_error_column_as_null | 是否将类型转化失败的字段默认置为 null。 | false |
job.common.host_ips_mapping | HDFS 数据源通过连接串形式配置时,需在高级参数中配置 ip_mapping 信息,将 hdfs 集群的节点域名与 ip 进行映射,示例如下:
| 无 |
参数 | 描述 | 默认值 |
|---|---|---|
job.reader.parse_partition_from_path | 在需要读取并解析数据源地址路径下的分区字段场景中,可以添加此高级参数,在手动添加分区字段映射后,便可正常读取分区字段数据。 | false |
job.reader.partition_num | 读取分区字段数据场景中,如果是读取 Json 这类没有 Schema 定义的数据格式时,需添加此高级参数,来告知当前作业设置的路径中包含多少个分区字段数。 | 无 |
参数 | 描述 | 默认值 |
|---|---|---|
job.writer.rolling.max_part_size | 文件切割大小,单位字节,默认 10G。 注意 这里是指未压缩读的数据大小, 而非 HDFS 最终文件大小。 | 10737418240 |
job.writer.hdfs.replication | HDFS 副本数 | 3 |
job.writer.hdfs.compression_codec | HDFS 压缩格式,支持
| zstd |
job.writer.dump.directory_frequency | 写入 HDFS 文件夹的频率,支持以下参数:
| dump.directory_frequency.day |
参数名称 | 参数说明 | 默认值 |
|---|---|---|
job.common.checkpoint_interval | 设定 Checkpoint 刷新时间,默认 15 分钟,如果实时写入 Hive 时,写入 Hive 时间依据此参数。 | 900000 |
job.common.host_ips_mapping | Hive 数据源通过连接串方式接入自建集群时,需通过该高级参数配置 host 与真实 ip 之间的映射关系,示例如下:
| 无 |
参数名称 | 参数说明 | 默认值 |
|---|---|---|
job.writer.partition_strategy | 参数分区创建策略 | partition_last |
job.writer.partition.date_format | 写入动态日期分区格式,可配置为:yyyyMMdd、yyyy-MM-DD | yyyyMMdd |
job.writer.partition.hour_format | 写入动态小时分区格式,可配置为:hh、HH | HH |
job.writer.null_string_as_null | 复杂类型中的 string 类型,默认会将 null 写为空字符串。如果需要配置默认写入 null,可以将此参数配置为 true。如脏数据中存在无法转换的列时,会自动转换为 null 值。 | false |
job.writer.case_insensitive | 默认会将数据全部转换为小写。 | true |
job.writer.convert_error_column_as_null | 将脏数据中无法转换的列自动转换为 null。 | false |
job.writer.dump.directory_frequency | 写入 HDFS 文件夹的频率,支持以下参数:
| dump.directory_frequency.day |
job.writer.dump.file_name_state.version | 若场景中存在多个流式集成任务同时写同一个 Hive 表时,可使用该参数:
注意 该高级参数目前仅支持在流式集成任务中使用,离线集成任务暂不支持。 | 1 |
| EMR Hive 接入方式读写 TOS 分层桶时,需添加以下相关参数 : 说明 其中: 若未添加,则读写 TOS 分层桶时,会出现以下报错:
| 无 |
| EMR Hive 接入方式读写 TOS 分层桶时,需同时添加该参数。即指定读取 Hive 数据的底层存储类型为 raw_tos。 | 无 |
参数名称 | 描述 | 默认值 |
|---|---|---|
job.reader.connector.startup-mode | 默认消费起始位置参数指定:
| |
job.reader.metadata_columns | 读取 Kafka 元数据相关信息,多个元数据可用英文逗号隔开。配置示例如下:job.reader.metadata_columns = timestamp,offset,key,value,partition,headers |
参数名称 | 描述 | 默认值 |
|---|---|---|
job.common.host_ips_mapping | Kafka 通过公网接入,kafka broker 设置为域名;需配置 ip 与域名映射,示例如下: | |
job.common.skip_dump_parse | Kafka 数据源通过公网形式接入,开启 SASL_SSL 认证时,需设置该参数为 true。 | false |
job.writer.properties | max.request.size 消息体大小; 说明 适用范围:DataSail 整库解决方案配置中,如果单个消息体比较大时,可以调整此参数。 | {"max.request.size":1048576,"buffer.memory":33554432} |
job.writer.compression_type | 消息压缩格式,支持 none、snappy、gzip、lz4 说明 DataSail 整库解决方案配置中,可指定消息压缩格式。 | snappy |
参数名 | 描述 | 默认值 |
|---|---|---|
solution.reader.ddl.external_schema_mode | 由于 Mongo 灵活的 Schema 定义,且 Mongo Schema Fetcher 获取的字段是无序且不保证每次获取的结果一致,这对解决方案中的自动建表能力有一定的困难。
| MERGE |
solution.reader.ddl.external_schemas | 自定义 Mongo Schema 字段信息,示例如下: 说明 实时分库分表解决方案中,Mongo Schema 字段信息中的源表名信息,可以是“”的形式,表示所有源表均可匹配该字段信息。如下方示例中表名 test.dts_mongo_test,可将其填写为 “”。
| 无 |
参数名 | 描述 | 默认值 |
|---|---|---|
reader_fetch_size | 单批次读取文档 doc 的数量。 | 100000 |
filter | 指定读取过滤条件,满足 MongoDB 语法,如读取 id = 1000 的数据,填写示例如下: | 无 |
split_mode | 分片模式支持两种:
说明
| parallelism |
参数名 | 描述 | 默认值 |
|---|---|---|
max_connection_per_host | 连接池最大连接数。 | 100 |
connect_timeout_ms | 连接超时时间。 | 10000 |
batch_size | 单批次写入 MongoDB 的数据量。 | 100 |
write_mode | 高级参数设置写入方式:
| 无 |
批式读支持以下高级参数,您可根据实际情况进行配置:
参数名称 | 描述 | 默认值 |
|---|---|---|
job.reader.init_sql | 读取数据前执行的 SQL 语句。对于视图的查询可能需要使用 init SQL 语句初始化环境。 | 无 |
job.reader.reader_fetch_size | 每次拉取的数据条数,只在准确分片中有效。 | 10000 |
job.reader.query_timeout_seconds | Jdbc 方式读取数据,设定读取超时时间,单位秒。 | 300 |
job.reader.shard_split_mode | Jdbc 连接分片模式,支持准确分片、并发分片、不分片三种模式:
| 准确分片 |
job.reader.customized_sql | 自定义查询读取 SQL 语句。filter 过滤配置项不足以描述所筛选的条件,可通过该配置项来自定义执行较复杂的查询 SQL。 说明 配置该高级参数项后,数据同步任务仍需配置 table_name、column 、split_pk 、shard_split_mode 等必填配置项。然而,在执行同步时,系统将忽略这些配置项信息,直接使用该高级参数项中配置的内容进行数据查询和筛选。 | 无 |
job.reader.session_properties | 通过设定该高级参数,可自定义作用于 MySQL 中会话级的系统变量,格式为 Map<String, String>,如 job.reader.session_properties={ "wait_timeout": "3600" } ,设定超时参数为 3600 秒。 | 无 |
批式写支持以下高级参数,您可根据实际情况进行配置:
参数名称 | 描述 | 默认值 |
|---|---|---|
job.writer.is_insert_ignore | insert into 模式时,主键或者唯一键冲突时任务失败还是忽略冲突,false 为任务执行失败;true 为忽略冲突,任务正常执行。 | false |
job.writer.write_batch_interval | 一次性批量提交的数据条数,该值可以减少与 MySQL 网络的交互次数并提升整体吞吐量。如果该值设置过大可能会导致数据同步进程 OOM。 | 100 |
job.writer.write_retry_times | MySQL 写入失败时重试次数。 | 3 |
job.writer.retry_interval_seconds | 写入失败后两次重试的时间间隔,单位秒。 | write_batch_interval / 10 |
job.writer.connection_parameters | Jdbc 连接的全部参数,可在默认值后追加补充:
| autoReconnect=true&useUnicode=true&characterEncoding=utf-8&useSSL=false&zeroDateTimeBehavior=convertToNull |
job.writer.table_pattern | 数据写入 MySQL 多张分表时必填参数。注意事项详见5.3 数据写入 MySQL 多张分表。 | 无 |
job.writer.internal_columns | 数据写入 MySQL 多张分表时可选参数。 | 无 |
job.writer.session_properties | 通过设定该高级参数,可自定义作用于 MySQL 中会话级的系统变量,格式为 Map<String, String>,如 job.writer.session_properties={ "wait_timeout": "3600" } ,设定超时参数为 3600 秒。 | 无 |
参数名称 | 参数说明 | 参数默认值 |
|---|---|---|
job.writer.sink_flush_interval_ms | 写入 buffer 刷新时间,默认 60000 毫秒 | 60000 |
job.writer.sink_buffer_size | 写入 buffer 数据大小,默认 10485760 (10MB) | 10485760 |
job.writer.sink_buffer_count | 写入buffer 记录条数,默认 40960 | 40960 |
job.writer.stream_load_properties | 配置 StarRocks streamload 方式写入的可选参数,格式为 json 字符串配置。可配置多个可选参数,示例 {"partial_update":true,"insert_ignore":"ignore"}。
更多可选参数参考 Starrocks 官网文档 opt_properties。 | 无 |
job.writer.request_read_timeouts | 写入等待获取结果时间,默认 60000 毫秒 | 60000 |
job.writer.request_connect_timeouts | 写入连接超时时间,默认 60000 毫秒 | 60000 |
job.writer.sink_enable_2PC | 写入时任务分两阶段提交,默认 false | false |
高级参数 Key | 高级参数 Value |
|---|---|
job.reader.properties | 运行时动态设置 Paimon 表的属性(参见 https://paimon.apache.org/docs/0.8/maintenance/configurations/),格式为 Map<String, String> 类型的 JSON 字符串 |
job.reader.limit | 限制要读取的行数,通常用于数据抽样或测试 |
高级参数 Key | 高级参数 Value |
|---|---|
job.writer.properties | 运行时动态设置 Paimon 表的属性(参见 https://paimon.apache.org/docs/0.8/maintenance/configurations/),格式为 Map<String, String> 类型的 JSON 字符串 |
job.writer.overwrite_partition | 覆盖写特定的分区,当且仅当“写入模式”为“覆盖”时生效,格式为 Map<String, String> 类型的 JSON 字符串 |
job.common.checkpoint_interval | 流作业 Flink 快照生成周期(单位为毫秒),默认为 300s(5 分钟)。 |
在解决方案的刷新目标表映射界面,我们可以填入一些高级参数来控制建表行为,详见 实时整库同步。
高级参数 Key | 高级参数 Value |
|---|---|
solution.writer.common.ddl.buckets_num | 目标表的分桶(bucket)数。如果不设置,默认为 -1(动态 bucket)。 |
solution.writer.paimon.ddl.bucket_keys | 目标表的分桶键(bucket key)。如果有多个字段,可用半角逗号分隔(例如 id,name)。 |
solution.writer.paimon.ddl.options | 建表时的各类可选参数(参见 https://paimon.apache.org/docs/0.8/maintenance/configurations/),格式为 Map<String, String> 类型的 JSON 字符串 |
参数名称 | 描述 | 默认值 |
|---|---|---|
job.reader.init_sql | 读取数据前执行的 SQL 语句。对于视图的查询可能需要使用 init SQL 语句初始化环境 | 无 |
job.reader.reader_fetch_size | 每次拉取的数据条数,只在准确分片中有效。 | 10000 |
job.reader.shard_split_mode | 分片模式,支持准确分片、并发分片、不分片三种模式:
| 准确分片 |
job.reader.customized_sql | 自定义查询读取 SQL 语句。filter 过滤配置项不足以描述所筛选的条件,可通过该配置项来自定义执行较复杂的查询 SQL。 说明 配置该高级参数项后,数据同步任务仍需配置 table_name、column 、split_pk 、shard_split_mode 等必填配置项。然而,在执行同步时,系统将忽略这些配置项信息,直接使用该高级参数项中配置的内容进行数据查询和筛选。 | 无 |
参数名 | 描述 | 默认值 |
|---|---|---|
job.writer.is_insert_ignore | insert into 模式时,主键或者唯一键冲突时任务失败还是忽略冲突 | false |
job.writer.write_batch_interval | 一次性批量提交的数据条数,该值可以减少与 PostgreSQL 网络的交互次数并提升整体吞吐量。如果该值设置过大可能会导致数据同步进程 OOM。 | 100 |
job.writer.write_retry_times | PostgreSQL 写入失败时重试次数。 | 3 |
job.writer.retry_interval_seconds | 写入失败后两次重试的时间间隔,单位秒 | write_batch_interval / 10 |
参数名称 | 描述 | 默认值 |
|---|---|---|
job.reader.key_pattens | 读取 Redis keys 的匹配策略,默认为*,即读取所有的 key。
| * |
job.reader.db_index | Redis 逻辑库索引号,默认为 0。如果您的数据位于 Redis 的其他 DB,比如在 DB 6 中,则填写6即可。 | 0 |
job.reader.reader_parallelism_num | 读取 Redis 分片数,Redis 服务为单线程模型,推荐设置为 1,默认为 1。 | 1 |
job.reader.client_timeout_ms | 创建 Redis 连接的超时时间,单位为毫秒(ms)。 | 60000 |
job.reader.max_attempt_count | 执行单次 Redis Command 失败的最大重试次数 | 3 |
job.reader.read_mode | 指定 Redis 读取模式:
| all |
job.reader.scan_batch_size | 与 job.reader.read_mode 参数一起使用。当 job.reader.read_mode=scan 模式时,需通过该参数指定每次拉取的 size,默认每次读取 10000 个 key。 | 10000 |
job.reader.compress_codec | TOS 读取压缩文件时需要配置该参数,可选值为 zip。 | 无 |
参数名称 | 描述 | 默认值 |
|---|---|---|
job.writer.write_batch_interval | 一次性批量提交的数据条数,该值可以减少与 Redis 网络的交互次数并提升整体吞吐量。但如果该值设置过大可能会导致数据同步进程 OOM。 | 50 |
job.writer.database | 指定写入 Redis 中的 Database 信息,默认为0。 | 0 |
参数名 | 描述 | 默认值 |
|---|---|---|
job.reader.enable_success_file_check | 若任务中需要检查前置 Success 文件是否就绪,您可添加该高级参数。设置为 True,表示开启 Success 文件检查,当检查的文件存在时,任务才会执行成功。默认 false,不检查。 | false |
job.reader.success_file_path | 设置检查的 Success 文件全路径信息。 | |
job.reader.success_file_check_interval_ms | 设置检查 Success 文件时间间隔,单位毫秒,默认 60000 | 60000 |
job.reader.success_file_check_times | 设置 Success 文件检查次数,默认 60 | 60 |
job.reader.csv_delimiter_ascii | 当 TOS 文件中的分隔符是不可见的 ascii 时,可使用该高级参数,并将其设置为对应字符的 ascii,如 | 无 |
在解决方案的刷新目标表映射界面,我们可以填入一些高级参数来控制建表行为,详见 实时整库同步。
参数名称 | 描述 | 示例值 |
|---|---|---|
solution.writer.iceberg.ddl.options | 建表时,配置表自定义属性。 | {"write.format.default":"parquet", "write.metadata.delete-after-commit.enabled":"true"} |
solution.writer.common.ddl.partition.include_tables | 建表时,配置分区包含的表(正则表达式匹配所有表)。 | .* |
solution.writer.common.ddl.partition.keys | 分区键配置 | id |
job.writer.upsert-enabled | 写入模式,默认 upsert 模式,设置为 false 时启用 append 模式。 | false |
参数配置规则 | Iceberg 额外表属性,常用配置参考:https://iceberg.apache.org/docs/latest/configuration/#write-properties | 需加 job.writer 前缀(如 job.writer.xxx) |