You need to enable JavaScript to run this app.
文档中心
数据智能体 DataAgent(私有化)

数据智能体 DataAgent(私有化)

复制全文
下载 pdf
数据处理
文本处理
复制全文
下载 pdf
文本处理

功能概述

文本处理是指利用自动化程序对文本数据进行一系列分析、清洗、转换和格式化的操作过程。主要目标是将原始的、非结构化的或半结构化的文本数据,转化为干净、规整、可供下游模型训练或数据分析任务直接使用的结构化数据。本文将为你介绍如何使用文本处理算子。

算子介绍

特定字符替换

针对特殊字符可以通过精确匹配或正则匹配的方式进行字符替换,替换为新字符。
应用场景
当从网页、爬虫、用户输入等渠道获取文本数据时,数据往往是 “脏数据”,必须清洗后才能使用,例如:

  • 替换 URL、邮箱、手机号等无关字符为统一标识(如 [URL]),避免干扰语义分析。
  • 替换特殊控制字符(如 \n、\t、\r、空格)为统一格式(比如单个空格)。
  • 替换重复字符(如 “啊啊啊”→“啊”)、乱码字符(如 “�”),保证文本可读性。

操作说明
点击加号+,在可视化知识处理中增加文本处理>特殊字符替换算子。
Image

参数

说明

操作字段

选择上游输出字段,一个字段不能重复选择。

原始字符

支持输入多个普通字符,多个字符之间使用回车键分割。同时可切换到正则表达式。

替换字符

用户自定义

说明

规则的数量不超过10个。

HTML 标签移除

移除 <div><p><span><a> 等用于网页渲染的HTML标签,这些标签属于 “无意义噪声,可能导致分析/训练结果失真,保证文本数据的 “纯净性”,让模型只聚焦于文字本身的语义。
应用场景
爬取网页内容时,文本会夹杂 <p><div><br><a> 等 HTML 标签,这些标签对文本内容本身无意义,比如爬取新闻正文时,需要只保留纯文字内容。
操作说明
点击加号+,在可视化知识处理中增加文本处理>HTML标签移除算子。
Image

  • 操作字段:选择移除HTML标签的字段。
  • 移除标签类型:选择在处理过程中需要移除的HTML标签类型,可选的标签类型包括:divpspantabletdthh1h2h4formbuttonimginput等。

哈希计算

计算文本的唯一标识,针对每条文本生成对应的md5哈希值。
应用场景
应用于检测重复文本,数据去重,减少重复数据的计算。
操作说明
点击加号+,在可视化知识处理中增加文本处理>哈希计算算子。
Image

  • 操作字段:选择要检测的字段。
  • 哈希计算方式:单选,默认选择MD5,可选择sha256。

Image

特殊字符移除

移除文本中的标点符号、重复标点符号、emoji表情等
Image

操作说明
点击加号+,在可视化知识处理中增加文本处理>字符移除算子。
Image

  • 操作字段:选择要检测的字段。
  • 移除字符:选择表情符号、标点符号、重复标点符号等,重复标点符号就是例如把“!!!”变成“!”。

文本语种识别

识别输入内容的语种。
Image
操作说明
点击加号+,在可视化知识处理中增加文本处理 > 文本语种识别算子。
Image

  • 处理配置:设置输入字段,当前算子将检测输入内容并识别语种。
  • 输出配置:
    • 输出字段:识别结果通过该字段进行输出。
    • 输出置信度:可选择开启,开启后输出字段将包含置信度分数,取值 0~1,数值越高置信度越高。

多语种文本翻译-火山

基于火山引擎机器翻译的文本翻译 API 能力,翻译指定的文本内容。
Image
操作说明
点击加号+,在可视化知识处理中增加文本处理 > 多语种文本翻译-火山算子。
配置说明如下:

配置项

参数说明

模型信息

处理配置

  • 操作字段:从输入字段中选择需要翻译文本的字段。
  • 源语言:选择源语言类型,不设置时默认自动检测语言。
  • 目标语言:选择翻译后的目标语言。

高级设置

  • 并发大小:设置翻译请求的并发限制。
  • 超时时间:设置翻译请求的超时时间,超时后将触发重试机制。
  • 重试次数:设置翻译请求重试的次数限制。
  • 重试间隔:设置每次重试的间隔时间,单位 ms。
  • 异常处理:配置当任务发生异常时的处理策略。
    • 终止任务:如果调用失败会导致任务失败,并清除中间结果。
    • 忽略异常:忽略调用失败的数据,使用 null 填充,保留调用成功的结果,最终任务为成功状态。

输出配置

输出字段:翻译结果通过该字段输出。

最近更新时间:2026.05.18 16:01:19
这个页面对您有帮助吗?
有用
有用
无用
无用