文本处理--数据智能体 DataAgent（私有化）-火山引擎

文档中心

数据智能体 DataAgent（私有化）

数据处理

文本处理

功能概述

文本处理是指利用自动化程序对文本数据进行一系列分析、清洗、转换和格式化的操作过程。主要目标是将原始的、非结构化的或半结构化的文本数据，转化为干净、规整、可供下游模型训练或数据分析任务直接使用的结构化数据。本文将为你介绍如何使用文本处理算子。

算子介绍

特定字符替换

针对特殊字符可以通过精确匹配或正则匹配的方式进行字符替换，替换为新字符。
应用场景
当从网页、爬虫、用户输入等渠道获取文本数据时，数据往往是 “脏数据”，必须清洗后才能使用，例如：

替换 URL、邮箱、手机号等无关字符为统一标识（如 [URL]），避免干扰语义分析。
替换特殊控制字符（如 \n、\t、\r、空格）为统一格式（比如单个空格）。
替换重复字符（如 “啊啊啊”→“啊”）、乱码字符（如 “�”），保证文本可读性。

操作说明
点击加号+，在可视化知识处理中增加文本处理>特殊字符替换算子。

参数	说明
操作字段	选择上游输出字段，一个字段不能重复选择。
原始字符	支持输入多个普通字符，多个字符之间使用回车键分割。同时可切换到正则表达式。
替换字符	用户自定义

说明

规则的数量不超过10个。

HTML 标签移除

移除 <div>、<p>、<span>、<a> 等用于网页渲染的HTML标签，这些标签属于 “无意义噪声，可能导致分析/训练结果失真，保证文本数据的 “纯净性”，让模型只聚焦于文字本身的语义。
应用场景
爬取网页内容时，文本会夹杂 <p>、<div>、<br>、<a> 等 HTML 标签，这些标签对文本内容本身无意义，比如爬取新闻正文时，需要只保留纯文字内容。
操作说明
点击加号+，在可视化知识处理中增加文本处理>HTML标签移除算子。

操作字段：选择移除HTML标签的字段。
移除标签类型：选择在处理过程中需要移除的HTML标签类型，可选的标签类型包括：div、p、span、table、td、th、h1、h2、h4、form、button、img、input等。

哈希计算

计算文本的唯一标识，针对每条文本生成对应的md5哈希值。
应用场景
应用于检测重复文本，数据去重，减少重复数据的计算。
操作说明
点击加号+，在可视化知识处理中增加文本处理>哈希计算算子。

操作字段：选择要检测的字段。
哈希计算方式：单选，默认选择MD5，可选择sha256。

特殊字符移除

移除文本中的标点符号、重复标点符号、emoji表情等

操作说明
点击加号+，在可视化知识处理中增加文本处理>字符移除算子。

操作字段：选择要检测的字段。
移除字符：选择表情符号、标点符号、重复标点符号等，重复标点符号就是例如把“！！！”变成“！”。

文本语种识别

识别输入内容的语种。

操作说明
点击加号+，在可视化知识处理中增加文本处理 > 文本语种识别算子。

处理配置：设置输入字段，当前算子将检测输入内容并识别语种。
输出配置：
- 输出字段：识别结果通过该字段进行输出。
- 输出置信度：可选择开启，开启后输出字段将包含置信度分数，取值 0~1，数值越高置信度越高。

多语种文本翻译-火山

基于火山引擎机器翻译的文本翻译 API 能力，翻译指定的文本内容。

操作说明
点击加号+，在可视化知识处理中增加文本处理 > 多语种文本翻译-火山算子。
配置说明如下：

配置项	参数说明
模型信息	Access Key ID：请求火山引擎API的安全凭证，获取请参考Access Key（密钥）管理。 Secret Access Key：请求火山引擎API的安全凭证，获取请参考Access Key（密钥）管理。
处理配置	操作字段：从输入字段中选择需要翻译文本的字段。源语言：选择源语言类型，不设置时默认自动检测语言。目标语言：选择翻译后的目标语言。
高级设置	并发大小：设置翻译请求的并发限制。超时时间：设置翻译请求的超时时间，超时后将触发重试机制。重试次数：设置翻译请求重试的次数限制。重试间隔：设置每次重试的间隔时间，单位 ms。异常处理：配置当任务发生异常时的处理策略。终止任务：如果调用失败会导致任务失败，并清除中间结果。忽略异常：忽略调用失败的数据，使用 null 填充，保留调用成功的结果，最终任务为成功状态。
输出配置	输出字段：翻译结果通过该字段输出。

最近更新时间：2026.05.18 16:01:19

这个页面对您有帮助吗？

有用

无用

数据智能体 DataAgent（私有化）

特定字符替换 #

HTML 标签移除 #

哈希计算 #

特殊字符移除 #