You need to enable JavaScript to run this app.
文档中心
数据智能体 DataAgent(私有化)

数据智能体 DataAgent(私有化)

复制全文
下载 pdf
数据处理
文档处理
复制全文
下载 pdf
文档处理

功能概述

文档处理利用自动化技术,对多种格式的文档文件(如 PDF、Word、PPT、HTML 等)进行解析,并从中提取、组织和结构化其内容的过程。其核心目标是将蕴含在各类文档中的非结构化或半结构化信息(包括文本、表格、图片、元数据等),转换为可供下游系统(如知识库、检索引擎、大语言模型应用)直接使用的标准化、结构化数据。本文将为您介绍文档处理算子。

算子介绍

知识分段

可将非结构化的数据分段,将文本分段,支持文本分段的相关配置,可以与导入知识引擎一起使用,将知识分段切片后导入对应知识库。

操作说明

点击加号+,在可视化知识处理中选择文档处理 > 知识分段算子,对数据进行分段。
Image
具体参数配置说明如下:

参数

说明

文件地址

从上游指定字段取值,内容一般为TOS文件的地址,支持以下类型的文件解析:pdf、docx、doc、txt、markdown、html、ppt、xlsx、csv、json、jpg、jpeg、png。

分段参数配置

支持通用文档PPTPDF图片表格其他。不同文档类型支持配置的分段模式不同,具体配置说明如下:

  • 通用文档(支持 doc、docx、txt、md)PDF
    • 分段模式:支持选择自动分段或自定义分段。
      • 自动分段:采用通用切片策略,由模型按照文档结构自动识别文档进行分段。
      • 自定义分段:选择后,需要手动配置分段规则、分段关联信息、合并小分段。
    • 解析策略:支持选择图片VLM理解、去除页眉页脚、文档OCR识别(适用复杂版式识别)。
  • PPT
    • 分段模式:支持自动分段,采用通用切片策略,由模型按照文档结构自动识别文档进行分段。
    • 解析策略:支持选择去除 PPT 母版噪声、去除页眉页脚。
  • 图片(支持 jpg、jpeg、png)
    • 分段模式:支持自动分段,采用通用切片策略,由模型按照文档结构自动识别文档进行分段。
    • 解析策略:支持选择图片VLM理解、图片OCR识别。
  • 表格(支持 xlsx、csv)
    • 分段模式:支持自动分段,采用通用切片策略,由模型按照文档结构自动识别文档进行分段。
    • 解析策略:支持选择模型自动识别表头、规则配置。
  • 其他(支持 html、json)
    • 分段模式:支持选择自动分段或自定义分段。
      • 自动分段:采用通用切片策略,由模型按照文档结构自动识别文档进行分段。
      • 自定义分段:选择后,需要手动配置分段规则、分段关联信息、合并小分段。
    • 解析策略:支持选择图片VLM理解、文档OCR识别(适用复杂版式识别)。

分段最大长度

单个切片的最大字符长度,包含英文、中文字符、标点符号、空格等。

输出配置

配置输出字段,即分段后的新列名,默认值为 chunk_result,一般不需要更改

PDF文档智能解析

支持PDF进行深度解析和结构化处理,通过版面分析、文字识别,按照阅读顺序提取PDF、图片中的文本、表格、图片等关键信息,最终组织成半结构化的带有语义信息和逻辑结构的文档,并以Markdown格式返回。

操作说明

  1. 点击加号+,在可视化知识处理中选择文档处理>PDF文档智能解析算子。

  2. 输入配置:
    Image

    • 输入类型:可选择文件url地址或文件base64位编码。
    • PDF字段:选择要使用的PDF字段。
  3. 解析配置:
    Image

    • 起始页码:注释、默认值如图所示。(根据技术选型决定)
    • 解析页数:注释、默认值如图所示。(根据技术选型决定)
  4. 高级配置:
    Image
    具体参数说明如下:

    配置项

    说明

    并发数

    设置节点处理任务的并发数量。该项为必填项。
    默认值:5

    轮询间隔

    设置每次轮询任务的时间间隔。单位为毫秒。
    默认值:3000

    最大等待时间

    设置获取数据时的最大等待时间,若超过该时间,任务将中断。单位为毫秒。
    默认值:300000

    异常处理

    选择当任务执行发生异常时的处理方式。该项为必填项。
    可选值:

    • 忽略:忽略异常,继续执行后续任务。
    • 抛出:抛出异常,中断任务执行。
  5. 输出配置:
    Image
    输出字段:自定义输出字段,默认pdf_content。不支持首位空格,其余均支持,不超过64个字符。

最近更新时间:2026.06.11 11:56:10
这个页面对您有帮助吗?
有用
有用
无用
无用