You need to enable JavaScript to run this app.
文档中心
数据智能体 DataAgent(私有化)

数据智能体 DataAgent(私有化)

复制全文
下载 pdf
知识库
文件关联知识库
复制全文
下载 pdf
文件关联知识库

调用本接口可将文件导入指定知识库,并转换为可检索、可召回的文档内容。

接口概览
  • 请求方式:POST
  • 请求地址: {{domain}}/profile_platform/api/v2/rag/file2document/convert
  • Content-Type:application/json
  • 主要能力:按文件类型配置切片、解析、图片/表格提取、音视频模型、质量检测和重复文档校验策略。

请求参数

说明

  • 请求体采用 JSON 格式。最小请求只需要传入目标知识库 ID 和待导入文件 ID;如需对不同文件类型设置解析策略,可传入 chunk_settingsquality_settingsfile_parse_type_overrides
  • 推荐新接入方统一使用 chunk_settingsquality_settings 组织解析配置;旧版字段仅用于历史兼容。
  • 顶层旧字段 completeness_checksensitive_word_checkduplicate_doc_check 仅保留兼容用途。新接入统一放入 quality_settings

字段名

类型

是否必填

说明

kb_ids

List

目标知识库 ID 列表。

file_ids

List

条件必填

本地上传场景下待导入文件 ID 列表。未显式传入时,可由 file_parse_type_overrides.match.file_idfile_parse_type_overrides.match.file_ids 推导。

object_keys

List

条件必填

对象存储导入场景下的源文件 key 列表。未显式传入时,可由 file_parse_type_overrides.match.source_keyfile_parse_type_overrides.match.source_keys 推导。

datasource_code

String

对象存储场景必填

数据源类型标识,例如对象存储导入时使用 object_storage

datasource_meta_id

Integer

对象存储场景必填

数据源元信息 ID。

file_parse_type_overrides

List

按文件覆盖逻辑解析类型,适用于“文件扩展名与实际内容类型不一致”的场景。更多信息,请参见解析类型覆盖

chunk_settings

Object

切片、解析、图片/表格提取、音视频模型等配置。配置详情,请参见chunk_settings 配置

quality_settings

Object

完整度检测、敏感词检测、重复文档校验等质量策略配置。配置详情,请参见quality_settings 配置

parser_config

Object

历史兼容字段。新接入不推荐使用。

folder_id

Integer

目标文件夹 ID。

extra

Object

透传扩展参数。

最小可用请求示例

{
  "kb_ids": [123],
  "file_ids": [1001]
}

解析类型覆盖

file_parse_type_overrides 用于按文件声明逻辑解析类型。它只决定文件应读取哪一类解析配置,不直接覆盖具体切片参数;具体参数仍放在对应类型的 chunk_settingsfile_overrides 中。

匹配规则

字段

适用场景

说明

match.file_id

本地上传

匹配单个文件 ID。

match.file_ids

本地上传

批量匹配多个文件 ID。

match.source_key

对象存储导入

匹配单个源文件 key。

match.source_keys

对象存储导入

批量匹配多个源文件 key。

parse_type 可选值:textdocotherpdfpptimagetable。其中 doc 会按 text 处理。

{
  "file_parse_type_overrides": [
    {
      "match": {
        "file_ids": [1002, 1003]
      },
      "parse_type": "ppt"
    }
  ],
  "chunk_settings": {
    "ppt": {
      "max_segment_length": 800,
      "exclude_master_content": true
    }
  }
}

chunk_settings 配置

chunk_settings 按文件类型分组,用于控制不同类型文件的切片、解析和导入提取参数。字段统一使用 snake_case

一、文件类型分组

分组

适用文件

说明

text/doc

.doc、.docx、.txt、.md 等

通用文档;doc 为兼容别名。

other

.html、.json 等

其它文档类型。

pdf

.pdf

PDF 文件。

ppt

.ppt、.pptx

演示文稿。

image

图片文件

图片理解和 OCR 配置。

audio

.mp3、.wav

音频转写配置。

video

.mp4、.mov、.avi

视频理解、音频转写和音视频融合配置。

table

.xls、.xlsx、.csv

表格自动分段或自定义分段配置。

二、通用文档、其它文档与 PDF 配置

字段名

类型

说明

mode

String

切片模式。可选值:defaultcustommodel_summarycontext_aware

max_segment_length

Integer

每个切片分段的最大长度,默认 1024。

custom_separator

String

自定义分隔符,仅在 mode=custom 时生效。

associate_chunk_title

Boolean

自定义分段时是否关联标题,仅在 mode=custom 时生效。

merge_small_chunks

Boolean

自定义分段时,是否自动合并连续小分段。

small_chunk_token_threshold

Integer

小分段阈值,单位 token。

extract_images

Boolean

是否从文档中提取图片,默认 true。

image_understand

Boolean

是否对提取出的图片进行智能理解,默认 false。

image_understand_max_tokens

Integer

图片智能理解时允许生成的最大输出 token 数。

extract_tables

Boolean

是否从文档中提取表格,默认 false。

三、PPT、图片、音频与视频配置

类型

字段

说明

ppt

modemax_segment_lengthexclude_master_contentexclude_header_footer

PPT 仅支持自动分段,可配置切片长度、去除母版噪声、去除页眉页脚。

image

modeimage_understandimage_ocrmax_segment_length

控制图片理解、OCR 和切片长度。

audio

modeasr_model

导入音频文件时,必须提供 asr_model

video

modefuse_video_asrasr_modelvideo_modelfuse_model

导入视频文件时,必须提供 asr_modelvideo_modelfuse_model

注意

导入音频文件缺少 chunk_settings.audio.asr_model,或导入视频文件缺少 chunk_settings.video.asr_modelvideo_modelfuse_model 时,请求会在入口校验阶段失败。

四、表格配置

表格文件支持自动分段和自定义分段。推荐按以下层级组织配置:table 表示表格默认策略,table.file_overrides[] 命中特定文件,file_overrides[].sheets[] 指定 sheet,sheets[].columns[] 指定列配置。

场景

配置方式

说明

自动分段

mode=auto

系统完成 sheet 和表头识别。可通过 parse_strategy 指定模型识别或规则配置。

模型自动识别表头

parse_strategy=model_auto_header

由模型识别表头。

规则配置

parse_strategy=rule,并配置 header_rowdata_start_row

按指定行号识别表头和数据起始行,行号从 1 开始。

自定义分段

file_overrides[].mode=custom,并配置 sheets,详情参见下文 sheets 字段表

为某个表格文件的一个或多个 sheet 单独配置切分规则和列配置。

sheets 字段

字段名

类型

是否必填

说明

sheet_name

String

条件必填

sheet 名称;与 sheet_id 至少传一个。

sheet_id

String

条件必填

sheet ID;与 sheet_name 至少传一个。

header_row

Integer

当前 sheet 的表头所在行,从 1 开始。

data_start_row

Integer

当前 sheet 的数据起始行,从 1 开始。

columns

List

当前 sheet 的列配置。详情参见下文 columns 字段表。

columns 字段

字段名

类型

说明

source_name

String

原始列名。

target_name

String

导入后的列别名。未传时使用 source_name

enabled

Boolean

是否启用该列参与召回,默认 true。

data_type

String

列数据类型。可选值:STRINGINTDOUBLEDATEDATETIMEARRAYLINK。未传时默认 STRING

description

String

列描述。

quality_settings 配置

quality_settings 负责管理质量检测和重复文档校验策略,按文件类型分组,类型名称与 chunk_settings 一致。当前 quality_settings 不支持 file_overrides

字段名

类型

说明

spell_check

Boolean

是否开启错别字检测。

completeness_check

Boolean

是否开启完整度检测。

sensitive_word_check

Boolean

是否开启敏感词检测。

duplicate_doc_check

Boolean

是否开启重复文档校验。该配置会在导入前生效,只校验当前命中文件类型下开启了该开关的文件。

{
  "quality_settings": {
    "text": {
      "completeness_check": true,
      "sensitive_word_check": false,
      "duplicate_doc_check": true
    },
    "ppt": {
      "completeness_check": false,
      "sensitive_word_check": true,
      "duplicate_doc_check": false
    }
  }
}

配置生效规则

当一次请求包含多个文件时,系统会按文件逐一解析配置。高优先级配置会覆盖低优先级配置的同名字段。

优先级

配置来源

说明

1

file_parse_type_overrides

判断当前文件是否覆盖默认解析类型;未命中则继续按默认文件类型读取配置。

2

file_overrides

在最终命中的文件类型分组内,查找是否存在命中当前文件的覆盖项。

3

类型级全局配置

使用文件类型对应的全局配置,例如 textpdfaudiovideotable

4

parser_config

历史兼容配置,仅当新配置未定义相关字段时回退。

5

系统默认值

以上配置均未提供时,使用系统预设默认值。

校验与限制

规则

说明

表格模式互斥

mode=auto 时不允许在同一层级配置 sheetsmode=custom 时必须配置同层级 sheets

自动分段规则配置

mode=auto 下,只有 parse_strategy=rule 时才允许配置 header_rowdata_start_row

自定义分段限制

mode=custom 时不允许配置 parse_strategy,也不允许在同一层级配置 header_rowdata_start_row

CSV 限制

CSV 文件没有 sheet 概念,不适用多 sheet 配置。

音频必填模型

导入音频文件时必须提供 chunk_settings.audio.asr_model

视频必填模型

导入视频文件时必须提供 chunk_settings.video.asr_modelchunk_settings.video.video_modelchunk_settings.video.fuse_model

响应参数

说明

接口返回统一 JSON 结构。调用方应优先根据 code 判断请求是否成功:code=0 表示成功,非 0 表示失败。

参数名称

参数类型

参数说明

code

Integer

响应码。0 表示成功,非 0 表示失败。

msg

string

响应信息。成功时通常为 success,失败时返回错误原因。

data

List

成功时返回导入结果列表;失败时通常为 null。详情参见下文 data 表。

data

参数名称

参数类型

参数说明

data[].id

Integer

文件与文档关联记录 ID。

data[].file_id

Integer

本次导入的源文件 ID。

data[].document_id

Integer

导入后生成的文档 ID。后续查询、管理或重新分段时可使用该 ID。

data[].running_state

String

解析任务运行状态,可为空。该字段用于兼容异步处理状态展示,未返回时以实际文档状态查询结果为准。

请求示例
{
  "kb_ids": [123],
  "file_parse_type_overrides": [
    {
      "match": {
        "file_ids": [1001]
      },
      "parse_type": "text"
    },
    {
      "match": {
        "file_ids": [1002]
      },
      "parse_type": "ppt"
    },
    {
      "match": {
        "file_ids": [1004]
      },
      "parse_type": "table"
    }
  ],
  "chunk_settings": {
    "text": {
      "mode": "custom",
      "max_segment_length": 1200,
      "custom_separator": "\\n---\\n",
      "associate_chunk_title": true,
      "merge_small_chunks": true,
      "small_chunk_token_threshold": 128,
      "extract_images": true,
      "image_understand": true,
      "image_understand_max_tokens": 1024,
      "extract_tables": true
    },
    "ppt": {
      "max_segment_length": 800,
      "exclude_master_content": true,
      "exclude_header_footer": true
    },
    "table": {
      "mode": "auto",
      "parse_strategy": "model_auto_header",
      "file_overrides": [
        {
          "match": {
            "file_id": 1004
          },
          "mode": "custom",
          "sheets": [
            {
              "sheet_name": "汇总",
              "header_row": 2,
              "data_start_row": 3,
              "columns": [
                {
                  "source_name": "城市",
                  "target_name": "city",
                  "enabled": true,
                  "data_type": "STRING",
                  "description": "城市列"
                },
                {
                  "source_name": "金额",
                  "target_name": "amount",
                  "enabled": true,
                  "data_type": "DOUBLE",
                  "description": "金额列"
                }
              ]
            }
          ]
        }
      ]
    }
  },
  "quality_settings": {
    "text": {
      "completeness_check": true,
      "sensitive_word_check": false,
      "duplicate_doc_check": true
    },
    "ppt": {
      "completeness_check": false,
      "sensitive_word_check": true,
      "duplicate_doc_check": false
    }
  }
}

响应示例

成功响应示例

{
  "code": 0,
  "msg": "success",
  "data": [
    {
      "id": 9001,
      "file_id": 1001,
      "document_id": 2001,
      "running_state": null
    }
  ]
}

失败响应示例

{
  "code": 500,
  "msg": "kb_ids 不能为空",
  "data": null
}
最近更新时间:2026.05.22 15:35:56
这个页面对您有帮助吗?
有用
有用
无用
无用