文件关联知识库--数据智能体 DataAgent（私有化）-火山引擎

文档中心

数据智能体 DataAgent（私有化）

知识库

文件关联知识库

调用本接口可将文件导入指定知识库，并转换为可检索、可召回的文档内容。

接口概览

请求方式：POST
请求地址： {{domain}}/profile_platform/api/v2/rag/file2document/convert
Content-Type：application/json
主要能力：按文件类型配置切片、解析、图片/表格提取、音视频模型、质量检测和重复文档校验策略。

请求参数

说明

请求体采用 JSON 格式。最小请求只需要传入目标知识库 ID 和待导入文件 ID；如需对不同文件类型设置解析策略，可传入 chunk_settings、quality_settings 和 file_parse_type_overrides。
推荐新接入方统一使用 chunk_settings 和 quality_settings 组织解析配置；旧版字段仅用于历史兼容。
顶层旧字段 completeness_check、sensitive_word_check、duplicate_doc_check 仅保留兼容用途。新接入统一放入 quality_settings。

字段名	类型	是否必填	说明
`kb_ids`	List	是	目标知识库 ID 列表。
`file_ids`	List	条件必填	本地上传场景下待导入文件 ID 列表。未显式传入时，可由 `file_parse_type_overrides.match.file_id` 或 `file_parse_type_overrides.match.file_ids` 推导。
`object_keys`	List	条件必填	对象存储导入场景下的源文件 key 列表。未显式传入时，可由 `file_parse_type_overrides.match.source_key` 或 `file_parse_type_overrides.match.source_keys` 推导。
`datasource_code`	String	对象存储场景必填	数据源类型标识，例如对象存储导入时使用 `object_storage`。
`datasource_meta_id`	Integer	对象存储场景必填	数据源元信息 ID。
`file_parse_type_overrides`	List	否	按文件覆盖逻辑解析类型，适用于“文件扩展名与实际内容类型不一致”的场景。更多信息，请参见解析类型覆盖。
`chunk_settings`	Object	否	切片、解析、图片/表格提取、音视频模型等配置。配置详情，请参见chunk_settings 配置。
`quality_settings`	Object	否	完整度检测、敏感词检测、重复文档校验等质量策略配置。配置详情，请参见quality_settings 配置。
`parser_config`	Object	否	历史兼容字段。新接入不推荐使用。
`folder_id`	Integer	否	目标文件夹 ID。
`extra`	Object	否	透传扩展参数。

最小可用请求示例

{
  "kb_ids": [123],
  "file_ids": [1001]
}

解析类型覆盖

file_parse_type_overrides 用于按文件声明逻辑解析类型。它只决定文件应读取哪一类解析配置，不直接覆盖具体切片参数；具体参数仍放在对应类型的 chunk_settings 和 file_overrides 中。

匹配规则

字段	适用场景	说明
`match.file_id`	本地上传	匹配单个文件 ID。
`match.file_ids`	本地上传	批量匹配多个文件 ID。
`match.source_key`	对象存储导入	匹配单个源文件 key。
`match.source_keys`	对象存储导入	批量匹配多个源文件 key。

parse_type 可选值：text、doc、other、pdf、ppt、image、table。其中 doc 会按 text 处理。

{
  "file_parse_type_overrides": [
    {
      "match": {
        "file_ids": [1002, 1003]
      },
      "parse_type": "ppt"
    }
  ],
  "chunk_settings": {
    "ppt": {
      "max_segment_length": 800,
      "exclude_master_content": true
    }
  }
}

chunk_settings 配置

chunk_settings 按文件类型分组，用于控制不同类型文件的切片、解析和导入提取参数。字段统一使用 snake_case。

一、文件类型分组

分组	适用文件	说明
`text`/`doc`	.doc、.docx、.txt、.md 等	通用文档；`doc` 为兼容别名。
`other`	.html、.json 等	其它文档类型。
`pdf`	.pdf	PDF 文件。
`ppt`	.ppt、.pptx	演示文稿。
`image`	图片文件	图片理解和 OCR 配置。
`audio`	.mp3、.wav	音频转写配置。
`video`	.mp4、.mov、.avi	视频理解、音频转写和音视频融合配置。
`table`	.xls、.xlsx、.csv	表格自动分段或自定义分段配置。

二、通用文档、其它文档与 PDF 配置

字段名	类型	说明
`mode`	String	切片模式。可选值：`default`、`custom`、`model_summary`、`context_aware`。
`max_segment_length`	Integer	每个切片分段的最大长度，默认 1024。
`custom_separator`	String	自定义分隔符，仅在 `mode=custom` 时生效。
`associate_chunk_title`	Boolean	自定义分段时是否关联标题，仅在 `mode=custom` 时生效。
`merge_small_chunks`	Boolean	自定义分段时，是否自动合并连续小分段。
`small_chunk_token_threshold`	Integer	小分段阈值，单位 token。
`extract_images`	Boolean	是否从文档中提取图片，默认 true。
`image_understand`	Boolean	是否对提取出的图片进行智能理解，默认 false。
`image_understand_max_tokens`	Integer	图片智能理解时允许生成的最大输出 token 数。
`extract_tables`	Boolean	是否从文档中提取表格，默认 false。

三、PPT、图片、音频与视频配置

类型	字段	说明
`ppt`	`mode`、`max_segment_length`、`exclude_master_content`、`exclude_header_footer`	PPT 仅支持自动分段，可配置切片长度、去除母版噪声、去除页眉页脚。
`image`	`mode`、`image_understand`、`image_ocr`、`max_segment_length`	控制图片理解、OCR 和切片长度。
`audio`	`mode`、`asr_model`	导入音频文件时，必须提供 `asr_model`。
`video`	`mode`、`fuse_video_asr`、`asr_model`、`video_model`、`fuse_model`	导入视频文件时，必须提供 `asr_model`、`video_model` 和 `fuse_model`。

注意

导入音频文件缺少 chunk_settings.audio.asr_model，或导入视频文件缺少 chunk_settings.video.asr_model、video_model、fuse_model 时，请求会在入口校验阶段失败。

四、表格配置

表格文件支持自动分段和自定义分段。推荐按以下层级组织配置：table 表示表格默认策略，table.file_overrides[] 命中特定文件，file_overrides[].sheets[] 指定 sheet，sheets[].columns[] 指定列配置。

场景	配置方式	说明
自动分段	`mode=auto`	系统完成 sheet 和表头识别。可通过 `parse_strategy` 指定模型识别或规则配置。
模型自动识别表头	`parse_strategy=model_auto_header`	由模型识别表头。
规则配置	`parse_strategy=rule`，并配置 `header_row`、`data_start_row`	按指定行号识别表头和数据起始行，行号从 1 开始。
自定义分段	`file_overrides[].mode=custom`，并配置 `sheets`，详情参见下文 sheets 字段表	为某个表格文件的一个或多个 sheet 单独配置切分规则和列配置。

sheets 字段

字段名	类型	是否必填	说明
`sheet_name`	String	条件必填	sheet 名称；与 `sheet_id` 至少传一个。
`sheet_id`	String	条件必填	sheet ID；与 `sheet_name` 至少传一个。
`header_row`	Integer	否	当前 sheet 的表头所在行，从 1 开始。
`data_start_row`	Integer	否	当前 sheet 的数据起始行，从 1 开始。
`columns`	List	否	当前 sheet 的列配置。详情参见下文 columns 字段表。

columns 字段

字段名	类型	说明
`source_name`	String	原始列名。
`target_name`	String	导入后的列别名。未传时使用 `source_name`。
`enabled`	Boolean	是否启用该列参与召回，默认 true。
`data_type`	String	列数据类型。可选值：`STRING`、`INT`、`DOUBLE`、`DATE`、`DATETIME`、`ARRAY`、`LINK`。未传时默认 `STRING`。
`description`	String	列描述。

quality_settings 配置

quality_settings 负责管理质量检测和重复文档校验策略，按文件类型分组，类型名称与 chunk_settings 一致。当前 quality_settings 不支持 file_overrides。

字段名	类型	说明
`spell_check`	Boolean	是否开启错别字检测。
`completeness_check`	Boolean	是否开启完整度检测。
`sensitive_word_check`	Boolean	是否开启敏感词检测。
`duplicate_doc_check`	Boolean	是否开启重复文档校验。该配置会在导入前生效，只校验当前命中文件类型下开启了该开关的文件。

{
  "quality_settings": {
    "text": {
      "completeness_check": true,
      "sensitive_word_check": false,
      "duplicate_doc_check": true
    },
    "ppt": {
      "completeness_check": false,
      "sensitive_word_check": true,
      "duplicate_doc_check": false
    }
  }
}

配置生效规则

当一次请求包含多个文件时，系统会按文件逐一解析配置。高优先级配置会覆盖低优先级配置的同名字段。

优先级	配置来源	说明
1	`file_parse_type_overrides`	判断当前文件是否覆盖默认解析类型；未命中则继续按默认文件类型读取配置。
2	`file_overrides`	在最终命中的文件类型分组内，查找是否存在命中当前文件的覆盖项。
3	类型级全局配置	使用文件类型对应的全局配置，例如 `text`、`pdf`、`audio`、`video`、`table`。
4	`parser_config`	历史兼容配置，仅当新配置未定义相关字段时回退。
5	系统默认值	以上配置均未提供时，使用系统预设默认值。

校验与限制

规则	说明
表格模式互斥	`mode=auto` 时不允许在同一层级配置 `sheets`；`mode=custom` 时必须配置同层级 `sheets`。
自动分段规则配置	`mode=auto` 下，只有 `parse_strategy=rule` 时才允许配置 `header_row` 和 `data_start_row`。
自定义分段限制	`mode=custom` 时不允许配置 `parse_strategy`，也不允许在同一层级配置 `header_row` 或 `data_start_row`。
CSV 限制	CSV 文件没有 sheet 概念，不适用多 sheet 配置。
音频必填模型	导入音频文件时必须提供 `chunk_settings.audio.asr_model`。
视频必填模型	导入视频文件时必须提供 `chunk_settings.video.asr_model`、`chunk_settings.video.video_model` 和 `chunk_settings.video.fuse_model`。

响应参数

说明

接口返回统一 JSON 结构。调用方应优先根据 code 判断请求是否成功：code=0 表示成功，非 0 表示失败。

参数名称	参数类型	参数说明
code	Integer	响应码。`0` 表示成功，非 `0` 表示失败。
msg	string	响应信息。成功时通常为 `success`，失败时返回错误原因。
data	List	成功时返回导入结果列表；失败时通常为 `null`。详情参见下文 data 表。

data

参数名称	参数类型	参数说明
data[].id	Integer	文件与文档关联记录 ID。
data[].file_id	Integer	本次导入的源文件 ID。
data[].document_id	Integer	导入后生成的文档 ID。后续查询、管理或重新分段时可使用该 ID。
data[].running_state	String	解析任务运行状态，可为空。该字段用于兼容异步处理状态展示，未返回时以实际文档状态查询结果为准。

请求示例

{
  "kb_ids": [123],
  "file_parse_type_overrides": [
    {
      "match": {
        "file_ids": [1001]
      },
      "parse_type": "text"
    },
    {
      "match": {
        "file_ids": [1002]
      },
      "parse_type": "ppt"
    },
    {
      "match": {
        "file_ids": [1004]
      },
      "parse_type": "table"
    }
  ],
  "chunk_settings": {
    "text": {
      "mode": "custom",
      "max_segment_length": 1200,
      "custom_separator": "\\n---\\n",
      "associate_chunk_title": true,
      "merge_small_chunks": true,
      "small_chunk_token_threshold": 128,
      "extract_images": true,
      "image_understand": true,
      "image_understand_max_tokens": 1024,
      "extract_tables": true
    },
    "ppt": {
      "max_segment_length": 800,
      "exclude_master_content": true,
      "exclude_header_footer": true
    },
    "table": {
      "mode": "auto",
      "parse_strategy": "model_auto_header",
      "file_overrides": [
        {
          "match": {
            "file_id": 1004
          },
          "mode": "custom",
          "sheets": [
            {
              "sheet_name": "汇总",
              "header_row": 2,
              "data_start_row": 3,
              "columns": [
                {
                  "source_name": "城市",
                  "target_name": "city",
                  "enabled": true,
                  "data_type": "STRING",
                  "description": "城市列"
                },
                {
                  "source_name": "金额",
                  "target_name": "amount",
                  "enabled": true,
                  "data_type": "DOUBLE",
                  "description": "金额列"
                }
              ]
            }
          ]
        }
      ]
    }
  },
  "quality_settings": {
    "text": {
      "completeness_check": true,
      "sensitive_word_check": false,
      "duplicate_doc_check": true
    },
    "ppt": {
      "completeness_check": false,
      "sensitive_word_check": true,
      "duplicate_doc_check": false
    }
  }
}

响应示例

成功响应示例

{
  "code": 0,
  "msg": "success",
  "data": [
    {
      "id": 9001,
      "file_id": 1001,
      "document_id": 2001,
      "running_state": null
    }
  ]
}

失败响应示例

{
  "code": 500,
  "msg": "kb_ids 不能为空",
  "data": null
}

最近更新时间：2026.05.22 15:35:56

这个页面对您有帮助吗？

有用

无用

数据智能体 DataAgent（私有化）

最小可用请求示例 #

解析类型覆盖 #

匹配规则 #

chunk_settings 配置 #

一、文件类型分组 #

二、通用文档、其它文档与 PDF 配置 #

三、PPT、图片、音频与视频配置 #

四、表格配置 #