支持的算子列表：离线算子--AI 数据湖服务-火山引擎

文档中心

AI 数据湖服务

算子总览

支持的算子列表：离线算子

支持的算子列表：离线算子

方舟大模型系列

视觉理解

算子名称	使用方式	算子简介
视觉内容理解（豆包系列模型）	离线	使用火山方舟的大模型对图片、视频或文本进行分析理解，并返回文本输出。核心功能：多模态场景支持：支持图片、视频、文本的任意组合输入，算子会自动构建符合多模态模型规范的 message 结构。丰富的输入源：支持 `http/https/tos/s3` 协议的 URL、Base64 编码及原始二进制数据。TOS/S3 地址会自动进行预签名。灵活的数据格式：图片、视频、文本列均支持 `string`（单个）或 `list`（多个）形式传入。
视觉内容理解（Doubao-1.5-vision-pro）	离线	使用火山方舟的大模型对图片、视频或文本进行分析理解，并返回文本输出。核心功能：多模态场景支持：支持图片、视频、文本的任意组合输入，算子会自动构建符合多模态模型规范的 message 结构。丰富的输入源：支持 `http/https/tos/s3` 协议的 URL、Base64 编码及原始二进制数据。TOS/S3 地址会自动进行预签名。灵活的数据格式：图片、视频、文本列均支持 `string`（单个）或 `list`（多个）形式传入。
视觉内容理解（Doubao-1.5-vision-pro-32k）	离线	使用火山方舟的大模型对图片、视频或文本进行分析理解，并返回文本输出。核心功能：多模态场景支持：支持图片、视频、文本的任意组合输入，算子会自动构建符合多模态模型规范的 message 结构。丰富的输入源：支持 `http/https/tos/s3` 协议的 URL、Base64 编码及原始二进制数据。TOS/S3 地址会自动进行预签名。灵活的数据格式：图片、视频、文本列均支持 `string`（单个）或 `list`（多个）形式传入。

文本生成

算子名称	使用方式	算子简介
文本生成（豆包/DeepSeek 系列模型）	离线	大模型文本生成专用处理器（豆包/DeepSeek）核心功能：纯文本场景优化：根据用户输入文本数据，自动构建符合模型规范的message结构输入简化机制：原生支持str类型输入，自动封装为{role: user, content: text}格式多任务支持：翻译/总结/问答等NLP场景开箱即用双提示词系统： system_content：系统级行为指导（如翻译风格控制） prompt：用户级指令模板（支持{query}占位符替换）
文本生成（Doubao-lite-32K）	离线	大模型文本生成专用处理器（豆包/DeepSeek）核心功能：纯文本场景优化：根据用户输入文本数据，自动构建符合模型规范的message结构输入简化机制：原生支持str类型输入，自动封装为{role: user, content: text}格式多任务支持：翻译/总结/问答等NLP场景开箱即用双提示词系统： system_content：系统级行为指导（如翻译风格控制） prompt：用户级指令模板（支持{query}占位符替换）
文本生成（Doubao-1.5-pro-32K）	离线	大模型文本生成专用处理器（豆包/DeepSeek）核心功能：纯文本场景优化：根据用户输入文本数据，自动构建符合模型规范的message结构输入简化机制：原生支持str类型输入，自动封装为{role: user, content: text}格式多任务支持：翻译/总结/问答等NLP场景开箱即用双提示词系统： system_content：系统级行为指导（如翻译风格控制） prompt：用户级指令模板（支持{query}占位符替换）
文本生成（Deepseek-V3）	离线	大模型文本生成专用处理器（豆包/DeepSeek）核心功能：纯文本场景优化：根据用户输入文本数据，自动构建符合模型规范的message结构输入简化机制：原生支持str类型输入，自动封装为{role: user, content: text}格式多任务支持：翻译/总结/问答等NLP场景开箱即用双提示词系统： system_content：系统级行为指导（如翻译风格控制） prompt：用户级指令模板（支持{query}占位符替换）
文本生成（Doubao-1.5-lite-32K）	离线	大模型文本生成专用处理器（豆包/DeepSeek）核心功能：纯文本场景优化：根据用户输入文本数据，自动构建符合模型规范的message结构输入简化机制：原生支持str类型输入，自动封装为{role: user, content: text}格式多任务支持：翻译/总结/问答等NLP场景开箱即用双提示词系统： system_content：系统级行为指导（如翻译风格控制） prompt：用户级指令模板（支持{query}占位符替换）
深度思考（Deepseek-R1）	离线	基于 DeepSeek-R1 模型的深度思考能力，使用具备深度思考能力的 DeepSeek-R1 模型对文本进行分析理解，并返回结构化输出。模型在回答问题前，会进行问题分析与拆解，并基于此生成回答。核心功能：深度思考机制：模型在回答问题前自动进行问题拆解和逻辑推理，生成思维链（`reasoning_content`），提升回答的全面性和深入性。纯文本输入：此算子变体专为文本任务设计，仅支持 `texts` 列输入。灵活的思考模式：支持通过 `thinking_type` 参数控制深度思考模式（`enabled` / `disabled` / `auto`），在回答质量与性能之间灵活权衡。
深度思考（Doubao-1.5-thinking-pro）	离线	模态场景下提供大模型的深度思考能力，使用具备深度思考能力的 Doubao-1.5-thinking-pro 模型对文本进行分析理解，并返回结构化输出。模型在回答问题前，会进行问题分析与拆解，并基于此生成回答。核心功能：深度思考机制：模型在回答问题前自动进行问题拆解和逻辑推理，生成思维链（reasoning_content）输入简化机制：支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源，通过简单配置即可实现视觉理解能力灵活思考模式：支持通过 thinking_type 参数控制深度思考模式（enabled / disabled / auto），在回答质量与性能之间灵活权衡

文本向量化

算子名称	使用方式	算子简介
文本向量化（Doubao-embedding-large）	离线	文本向量化生成处理器文本向量化支持：支持文本的向量化生成，实现文本检索能力，参考文档：https://www.volcengine.com/docs/82379/1521766
文本向量化（Doubao-embedding）	离线	文本向量化生成处理器文本向量化支持：支持文本的向量化生成，实现文本检索能力，参考文档：https://www.volcengine.com/docs/82379/1521766

多模态深度思考

算子名称	使用方式	算子简介
多模态深度思考（豆包系列模型）	离线	多模态场景下提供大模型的深度思考能力，使用具备深度思考能力的模型，对图片、视频或文本进行分析理解，并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构，用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。核心功能：深度思考机制：模型在回答问题前自动进行问题拆解和逻辑推理，生成思维链（reasoning_content）多模态场景支持：同时支持图片 / 视频 / 文本输入，自动完成多模态消息拼装输入简化机制：支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源，通过简单配置即可实现视觉理解能力灵活思考模式：支持通过 thinking_type 参数控制深度思考模式（enabled / disabled / auto），在回答质量与性能之间灵活权衡
多模态深度思考（Doubao-Seed-1.6）	离线	多模态场景下提供大模型的深度思考能力，使用具备深度思考能力的模型，对图片、视频或文本进行分析理解，并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构，用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。核心功能：深度思考机制：模型在回答问题前自动进行问题拆解和逻辑推理，生成思维链（reasoning_content）多模态场景支持：同时支持图片 / 视频 / 文本输入，自动完成多模态消息拼装输入简化机制：支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源，通过简单配置即可实现视觉理解能力灵活思考模式：支持通过 thinking_type 参数控制深度思考模式（enabled / disabled / auto），在回答质量与性能之间灵活权衡
多模态深度思考（Doubao-Seed-1.6-flash）	离线	多模态场景下提供大模型的深度思考能力，使用具备深度思考能力的模型，对图片、视频或文本进行分析理解，并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构，用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。核心功能：深度思考机制：模型在回答问题前自动进行问题拆解和逻辑推理，生成思维链（reasoning_content）多模态场景支持：同时支持图片 / 视频 / 文本输入，自动完成多模态消息拼装输入简化机制：支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源，通过简单配置即可实现视觉理解能力灵活思考模式：支持通过 thinking_type 参数控制深度思考模式（enabled / disabled / auto），在回答质量与性能之间灵活权衡
多模态深度思考（Doubao-Seed-1.6-thinking）	离线	多模态场景下提供大模型的深度思考能力，使用具备深度思考能力的模型，对图片、视频或文本进行分析理解，并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构，用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。核心功能：深度思考机制：模型在回答问题前自动进行问题拆解和逻辑推理，生成思维链（reasoning_content）多模态场景支持：同时支持图片 / 视频 / 文本输入，自动完成多模态消息拼装输入简化机制：支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源，通过简单配置即可实现视觉理解能力灵活思考模式：支持通过 thinking_type 参数控制深度思考模式（enabled / disabled / auto），在回答质量与性能之间灵活权衡
多模态深度思考（Doubao-1.5-thinking-vision-pro）	离线	多模态场景下提供大模型的深度思考能力，使用具备深度思考能力的模型，对图片、视频或文本进行分析理解，并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构，用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。核心功能：深度思考机制：模型在回答问题前自动进行问题拆解和逻辑推理，生成思维链（reasoning_content）多模态场景支持：同时支持图片 / 视频 / 文本输入，自动完成多模态消息拼装输入简化机制：支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源，通过简单配置即可实现视觉理解能力灵活思考模式：支持通过 thinking_type 参数控制深度思考模式（enabled / disabled / auto），在回答质量与性能之间灵活权衡

多模态向量化

算子名称	使用方式	算子简介
图文 embedding（豆包系列模型）	在线离线	多模态向量生成处理器，支持图像/视频与文本的联合向量生成，实现跨模态检索能力。核心功能多模态向量化支持：支持图像/视频与文本的联合向量生成，实现跨模态检索能力，参考文档：https://www.volcengine.com/docs/82379/1523520 输入格式自适应：原生支持图像/视频的base64编码、二进制数据、URL等输入格式自动处理媒体格式转换（JPEG/PNG/MP4/AVI等）

音频

音频处理

算子名称	使用方式	算子简介
音频评分(Audiobox Aesthetics)	离线	音频评分算子 - 使用 audiobox_aesthetics 对音频进行质量评分核心功能使用 audiobox_aesthetics 模型对音频片段进行质量评分提供四个评分维度：CE (连贯性/听感投入度)、CU (清晰度/可懂度)、PC (制作质量/构成质量)、PQ (感知质量/主观音质) 支持本地和远程 (tos://) 音频文件适用于音频质量评估、音频筛选、质量控制等场景
音频静音检测	离线	音频静音检测处理器，智能识别音频是否为完全静音核心功能：静音检测：分析整个音频文件，判断是否为静音可配置阈值：支持自定义静音检测的敏感度阈值(dB) 高效处理：优化的音量分析算法，处理速度快精确分析：通过专业音量检测技术判断静音状态支持本地文件、HTTP/HTTPS URL和TOS/S3存储
音频文件大小计算	离线	音频文件元数据分析处理器，精确计算文件大小核心功能精确计算音频文件字节大小支持本地文件与TOS存储轻量高效，适合批量处理
多语言 CTC 对齐	离线	“多语言 CTC 对齐算子”是一个基于 MMS Forced Aligner 模型的多语言音频 CTC 对齐算子（CTC，Connectionist Temporal Classification 的简称），旨在将音频内容与对应的文本脚本在时间维度上精确对齐。核心功能支持多语言输入：原生支持中文、英文的文本对齐，满足主流语种处理需求。支持多渠道输入：无缝处理来自本地文件路径、HTTP URL、TOS/S3 对象存储或原始字节流的音频数据。自动化预处理：内置针对中英文的文本预处理流程，包括大小写转换、数字展开、拼音转换及罗马化，以适应模型输入要求。此外，内置音频解码和预处理能力，自动将输入音频重采样为 16kHz 采样率的单声道格式，简化了调用流程。
音频滤镜处理	离线	音频滤镜处理器，基于 FFmpeg 的灵活音频效果应用。核心功能：通过 FFmpeg 应用常见音频滤镜（volume、highpass、lowpass、bass、treble、aecho 等）支持本地路径与 TOS/S3 远程路径自动下载与处理支持将处理结果上传到 TOS，或返回二进制结果
音频格式转换（离线）	离线	音频格式转换处理器核心功能：支持音频格式转换（WAV、MP3、FLAC）自动选择合适的编码器通过extra_params支持自定义ffmpeg参数支持本地文件、HTTP/HTTPS URL和TOS/S3存储
音频时长计算	离线	音频时长分析处理器，精确计算音频内容时长核心功能精确计算音频时长(秒级精度) 支持本地文件、TOS存储与二进制基于librosa专业音频处理库
音频片段切分(时间戳)	离线	音频时间戳切分处理器，支持精准片段提取。核心功能基于时间戳精确切分音频支持多输入格式：本地文件路径 TOS存储路径二进制数据流支持片段二进制输出或TOS存储
音频转MP3	离线	音频格式转换处理器，将各种音频格式转换为MP3 核心功能：支持多种音频格式转换为MP3 音频质量和编码参数自定义支持音频采样率、比特率精细控制自动选择第一个音轨支持本地文件、HTTP/HTTPS URL和TOS/S3存储
音频信噪比计算	离线	音频信噪比（SNR）计算器，基于非负矩阵分解（NMF）进行信号-噪声分离核心功能：对音频进行 STFT 频谱分析；使用 NMF 将频谱分解为信号与噪声分量；基于重建的时域信号与噪声估计能量比值，计算 SNR（单位 dB）。
音频拼接	离线	音频拼接处理器，支持将多个音频文件拼接成一段音频核心功能支持拼接多个音频文件为一个音频支持多输入格式：本地文件路径 TOS/S3存储路径 HTTP/HTTPS路径支持输出到指定路径自动处理不同采样率和声道的音频自动根据输出格式选择合适的编码器
音频快速拼接（同源）	离线	音频快速拼接处理器（同源音频）核心功能使用 concat demuxer 快速拼接同源音频（无需重编码）适用于格式、编码、采样率完全相同的音频文件速度快，无质量损失支持多输入格式：本地文件路径 TOS/S3存储路径 HTTP/HTTPS路径支持输出到指定路径
音频元数据提取	离线	音频元数据提取算子功能: 支持音频文件格式提取完整的音频元数据信息,包括: 基础信息: 时长、格式、比特率音频信息: 采样率、声道数、编码器使用 ffprobe 工具进行元数据提取支持本地文件、远程文件(TOS/S3)、HTTP/HTTPS链接
音频降噪(MossFormer2_SE_48K)	离线	使用MossFormer2_SE_48K进行音频降噪核心功能使用MossFormer2_SE_48K进行音频降噪支持本地文件、TOS存储(tos,s3,http,https等schema)
音频片段切分(时长)	离线	音频按时长切分，支持按固定时长分割音频片段核心功能按指定时长切分音频为多个片段支持多输入格式：本地文件路径 TOS/S3存储路径二进制数据流支持片段二进制输出或TOS存储支持最小片段时长过滤
音频质量评分(DNSMOS)	离线	音频质量评分模块 - 使用 DNSMOS 模型评估音频质量核心功能使用 DNSMOS (Deep Noise Suppression Mean Opinion Score) 模型进行音频质量评估提供整体质量 (OVRL)、信号质量 (SIG)、背景噪声 (BAK) 三个维度的评分评分范围在 1 到 5 之间，分数越高表示音频质量越好支持自动采样率转换和音频预处理适用于语音质量评估、音频筛选、质量控制等场景
音频提取与切分（LAS）	离线	音频提取与切分（LAS）算子，基于 LAS 音频提取与切分服务，从音频/视频中提取音频并按规则切分核心功能：从音频或视频中提取音频支持按时长切分多个片段支持输出格式与路径模板支持批量并发处理
语音质量评分（SpeechScore）	离线	音频语音质量评估算子 - 基于 ClearerVoice-Studio/speechscore 计算多项音频质量指标核心功能统一封装 SpeechScore，支持无参考与有参考两类指标可通过参数 `metrics` 配置计算指标集合，默认计算全部支持指标支持本地/TOS/HTTP/S3 路径输入；参考音频列 `reference_audio_paths` 可选输出为结构化结果，包含 BSSEval、DNSMOS、NISQA、PESQ、STOI、SNR、SRMR 等常见指标
音频格式转换（LAS）	离线	音频格式转换（LAS）算子，基于 LAS 音频格式转换服务，将输入音频转换为指定格式核心功能支持多种音频格式之间的转换支持指定输出格式与FFmpeg参数支持批量并发处理适用于音频格式标准化与转码场景

音频识别

算子名称	使用方式	算子简介
音频多语种识别（whisper）	离线	AudioLidWhisper 音频语言识别处理器核心功能音频解码：支持多种格式音频 → 16kHz 波形数据语言检测：基于Whisper-large模型识别几十种语言代码全称映射：自动转换语言代码为完整语言名称
语音转文字(豆包语音ASR)	离线	语音识别模块 - 基于LAS ASR服务的录音转写解决方案核心功能接入火山引擎LAS ASR接口支持自动断句、数字规整、说话人或通道分离（可选）并发处理多个音频文件，提供结构化 JSON 与可读文本两种输出适合转写最长2小时的录音文件，支持标点补全、智能断句、说话人分离等高级功能。
语音转文字（FireRed）	离线	语音识别模块 - 基于 FireRed ASR 模型的多语言语音转文字解决方案核心功能多语言识别：支持中英文、以及中文方言多模型选择：支持多种模型，包括AED模型和LLM模型音频类型：支持单声道、16K采样率的wav音频文件
语音转文字（whisper 系列模型）	离线	语音识别模块 - 基于Whisper模型的多语言语音转文字解决方案核心功能多语言识别：支持中英文等主流语言语音翻译：可将识别结果翻译为英文
语种识别及ASR（whisper 系列模型）	离线	语种识别 + 语言识别模块 - 基于Whisper模型的多语言 LID + ASR 解决方案核心功能多语言识别：支持中英文等百种语言语言识别（LID）：在识别文本的同时输出语言标签（例如 `en`、`zh`）标点符号恢复：可选的中英文标点恢复功能，提升文本可读性
语音端点识别（Silero 模型）	离线	语音端点检测模块 - 基于 Silero VAD 的高效音频分割解决方案核心功能语音端点检测：自动识别音频中的语音片段起止时间，实现语音与静音的精准分割批量处理：支持大批量音频数据的高效端点检测多格式输入：兼容原始二进制、Base64 编码、TOS/HTTP 链接等多种音频输入方式 GPU 加速：支持 GPU 环境下的高性能推理通用性强：在处理不同领域、存在各种背景噪声和质量水平的音频时表现优异
语音端点识别（FSMN 模型）	离线	语音端点检测模块 - 基于 FSMN VAD 的高效音频分割解决方案核心功能语音端点检测：自动识别音频中的语音片段起止时间，实现语音与静音的精准分割批量处理：支持大批量音频数据的高效端点检测多格式输入：兼容原始二进制、Base64 编码、TOS/HTTP 链接等多种音频输入方式 GPU 加速：支持 GPU 环境下的高性能推理
说话人确认（ERes2Net）	离线	AudioSpeakerVerificationEres2net 音频说话人验证处理器核心功能说话人验证：判断两段音频是否为同一说话人，输出相似度分数多源音频支持：支持本地文件、URL、对象存储、base64、binary等多种音频输入类型批量处理：支持批量音频对的高效验证与异常处理

音频生成

算子名称	使用方式	算子简介
文字转语音（豆包语音大模型）	离线	语音合成模块 - 基于豆包语音大模型的文本转音频解决方案核心功能接入火山引擎大模型（`volc.tts`）的语音合成接口支持多种参数配置，如音色、情绪、编码格式、语速、采样率等并发处理多个文本输入，输出 Base64 编码音频及原始响应适合用于语音播报、虚拟人声音生成、听力内容制作等场景

音频预处理

算子名称	使用方式	算子简介
音频格式标准化	离线	音频标准化模块 - 将音频统一为指定格式（采样率、声道、响度等）核心功能支持采样率重采样支持声道统一（如转为单声道）支持响度归一化（目标 dBFS，带限制增益范围）默认输入输出音频为字节（bytes）格式

音频分类

算子名称	使用方式	算子简介
多语言语音分类	离线	语音分类模块 - 基于 BEATs 模型的多语言语音分类解决方案，AudioBeatsClassifier 是一个基于 BEATs 模型的音频分类算子，用于识别音频中的主要声音事件，并返回概率最高的 Top K 个分类标签。核心功能支持多类型音频：能够自动处理多种类型的音频，识别出来自 Google AudioSet 定义的 527 类声音，例如“音乐”、“语音”、“警报声”或“动物叫声”等。支持多渠道输入：无缝处理来自本地文件路径、HTTP URL、TOS/S3 对象存储或原始字节流的音频数据。自动化预处理：内置音频解码和预处理能力，自动将输入音频重采样为 16kHz 采样率的单声道格式，简化了调用流程。

音频安全识别

算子名称	使用方式	算子简介
音频风险识别	离线	音频风险识别算子使用前置条件：开通业务风险识别产品-音频风险识别-音频点播服务，

文本

TOS路径预签名

算子名称	使用方式	算子简介
生成TOS的普通预签名	离线	TOS 预签名 URL 生成处理器核心功能：签名生成机制：基于火山引擎 TOS SDK 生成带时效性的预签名 URL URL schema 处理：原生支持 tos/s3 协议路径的签名转换自动跳过包含 http/https 协议的路径安全控制：可配置签名有效期（默认 3600 秒）

文本处理

算子名称	使用方式	算子简介
URL占比计算器	离线	URL占比计算器 - 基于URL字符占比的文本特征提取核心功能 URL占比计算：精确统计URL字符在文本中的占比多协议支持：支持HTTP、HTTPS等多种URL协议智能识别：使用正则表达式精确识别URL格式
中文简繁体转换	离线	基于 OpenCC 的中文简繁体转换算子核心功能多方向转换：支持简繁体、台湾正体、香港繁体等多种转换方向混合文本处理：正确处理中英文混杂内容，仅转换中文部分高效批处理：支持大批量文本的快速转换处理
文本安全性评分器	离线	文本安全性评分器 - 基于ShieldLM-6B-chatglm3的安全性评估核心功能多语言支持：支持中文和英文文本安全性评估三分类评估：输出safe、unsafe、controversial三类概率批量处理：支持批量文本安全性评估，提升处理效率
最大英文单词长度计算器	离线	最大英文单词长度计算器 - 统计文本中英文单词的最大长度核心功能英文单词识别：使用正则表达式识别文本中的英文单词最大长度计算：计算所有英文单词中的最大长度批量处理：支持批量文本的最大英文单词长度计算
词重复比例计算器	离线	词重复比例计算器 - 基于N-gram词组重复比例的文本特征提取核心功能词重复比例计算：精确统计文本中重复词组的比例双语言支持：支持中文、英文的分词处理灵活配置：支持不同长度的N-gram词组计算
重复行计算器	离线	重复行计算器 - 计算文本中重复行的比例核心功能重复行检测：自动识别文本中重复的行内容比例计算：计算重复行数与原始行数的比值质量评估：评估文本的重复程度和质量
文本 chunk 切分（基于语义）	离线	语义文本分块处理器 - 基于句子相似度的智能文本切分解决方案核心功能语义分块策略基于句子相似度的智能切分结合语义与语法规则重叠优化保持上下文连贯性支持中英文混合文本支持中英文字符和标点智能识别句子边界
版权声明移除	离线	版权声明移除器 - 移除文本中跟版权声明相关的文本核心功能版权声明检测：自动识别代码中的版权声明注释智能清理：根据版权声明特征进行精确的内容移除多格式支持：支持块注释和行注释格式
CommonCrawl WARC文件内容提取	离线	CommonCrawl网页内容提取器，支持多种解析策略核心功能：多解析器支持：trafilatura/justext/goose3 支持本地和远程WARC文件支持二进制数据和base64编码批量处理WARC文件，提取网页正文智能内容提取，过滤广告和导航元素
文本长度计算器	离线	文本长度计算器 - 计算文本的字符长度核心功能文本长度计算：计算输入文本的字符数量批量处理：支持批量文本长度计算数值输出：返回整数类型的长度值
字符占比计算器	离线	字符占比计算器 - 基于字母和数字字符占比的文本特征提取核心功能字符占比计算：精确统计字母和数字字符在文本中的占比分词模式支持：可选择基于分词或字符级别的占比计算多语言支持：支持英文、中文、日文、韩文等多种语言的字符识别
特殊字符占比计算器	离线	特殊字符占比计算器 - 基于特殊字符占比的文本特征提取核心功能特殊字符占比计算：精确统计特殊字符在文本中的占比多粒度支持：可选择不同类型的特殊字符进行计算灵活配置：支持计算所有特殊字符或特定类型字符的占比
文本 chunk 切分（基于句子结构）	离线	多格式文本分块处理器 - 结构化解析与智能切分解决方案核心功能支持格式 `纯文本`：基于段落/标点的语义分块 `Markdown`：保留文档结构，过滤图片链接 `HTML`：提取正文内容，保留章节结构智能分块策略结合语义与语法规则重叠优化保持上下文连贯性
文本链接移除	离线	超链接移除算子 - 文本链接正则替换核心功能识别协议链接、www 链接、域名 + 路径等通用形式的超链接将命中的超链接替换为指定字符串（`repl`），默认替换为"" 批量处理字符串，异常项返回 `None`
困惑度计算器	离线	困惑度计算算子 - 基于语言模型的文本质量评估解决方案核心功能语言模型评估基于 KenLM 语言模型计算文本困惑度支持中英文文本质量评估提供文本可读性指标质量评估困惑度越低，文本质量越高适用于文本质量筛选和评估
空白字符标准化器	离线	空白字符标准化器 - 将文本中不同种类的空白符号替换成标准空格核心功能空白字符识别：自动识别各种Unicode空白字符标准化处理：将所有空白字符替换为标准空格
项目符号行占比计算器	离线	项目符号行占比计算器 - 计算文本中项目符号行的比例核心功能项目符号检测：自动识别文本中以项目符号开头的行比例计算：计算项目符号行数与总行数的比值
MD5 哈希计算	离线	MD5哈希值计算器 - 计算文本的MD5指纹核心功能针对每条文本数据生成对应的MD5哈希值输出固定长度（32位小写十六进制）指纹支持批量处理

文本分类

算子名称	使用方式	算子简介
多语言语音分类	离线	语音分类模块 - 基于 BEATs 模型的多语言语音分类解决方案，AudioBeatsClassifier 是一个基于 BEATs 模型的音频分类算子，用于识别音频中的主要声音事件，并返回概率最高的 Top K 个分类标签。核心功能支持多类型音频：能够自动处理多种类型的音频，识别出来自 Google AudioSet 定义的 527 类声音，例如“音乐”、“语音”、“警报声”或“动物叫声”等。支持多渠道输入：无缝处理来自本地文件路径、HTTP URL、TOS/S3 对象存储或原始字节流的音频数据。自动化预处理：内置音频解码和预处理能力，自动将输入音频重采样为 16kHz 采样率的单声道格式，简化了调用流程。

文本质量评估

算子名称	使用方式	算子简介
多语言文本质量评分	离线	多语言文本质量评分算子 - 基于E5模型的多语言文本质量评估核心功能多语言支持：使用multilingual-e5模型支持多种语言的文本质量评分深度学习评估：基于Transformer架构的E5模型进行质量评估 GPU加速：支持GPU推理加速，提高处理效率批量处理：支持批量处理文本，优化推理性能
英文文本质量评分	离线	英文文本质量评分算子 - 基于FastText的文本质量评估核心功能质量评分：使用FastText模型对英文文本质量进行评分，偏好于科学知识，只支持CPU环境。批量处理：支持批量处理文本，提高处理效率

文本清洗

算子名称	使用方式	算子简介
html 标签移除	离线	HTML文档净化处理器 - 多结构解析与智能清理解决方案核心功能多结构解析标题提取：自动识别`<h1>`-`<h6>`标签正文抽取：智能识别文章主体内容冗余过滤：移除`<script>`/`<style>`等非文本标签智能处理容错机制：支持残缺HTML片段解析格式保留：维持文本段落结构与换行逻辑
Email 地址清理	离线	基于正则的 Email 地址清理算子。核心功能多场景支持：内置通用匹配模式，同时允许注入自定义正则表达式。可控替换：可配置替换串，实现脱敏或占位填充。批量兼容：支持数组批量处理
特定字符替换	离线	正则表达式批量替换处理器核心功能双模式替换机制：精确字符串匹配替换正则表达式模式匹配替换批量处理能力：支持多组 `pattern-replacement` 对并行处理容错机制：异常模式跳过并记录详细日志

文本向量化

算子名称	使用方式	算子简介
文本 embedding（BGE模型）	离线	基于 BGE 系列的文本嵌入模型，支持稠密向量生成核心功能多模型支持：支持 BGE-M3、BGE-Large-zh-v1.5、BGE-Large-en-v1.5、BGE-Multilingual-Gemma2 等模型每个模型有不同的输入提示，用户可以根据需要选择不同的模型硬件加速：支持 `FP16` 量化与 GPU 并行计算
文本 sparse & dense embedding（BGE模型）	离线	基于 BGE-M3 的文本嵌入模型，支持稀疏/稠密/token 三级向量生成核心功能多粒度嵌入输出：稀疏向量：词项权重表示，适合关键词检索稠密向量：1024维语义表示，适合语义相似度计算 Token向量：细粒度上下文表征硬件加速：支持 `FP16` 量化与 GPU 并行计算

文本安全识别

算子名称	使用方式	算子简介
文本内容风险识别	离线	文本内容风险识别算子使用前置条件：开通业务风险识别产品-文本风险识别，

文本翻译

算子名称	使用方式	算子简介
多语言文本翻译	离线	Seed-X 多语言文本翻译模型 - 跨语言文本翻译核心功能核心功能多语言智能翻译支持多种语言间的文本转换，可通过source_language和target_language参数自定义源语言和目标语言基于Seed-X-Instruct-7B/Seed-X-PPO-7B模型，提供高质量翻译结果支持语种请参考: https://huggingface.co/ByteDance-Seed/Seed-X-Instruct-7B 一般场景中，推荐使用Seed-X-PPO-7B模型，其在翻译质量上效果更佳灵活配置与优化支持多种计算精度选择（bfloat16等），适配不同性能需求集成张量并行处理和前缀缓存技术，显著提升推理效率支持自动或手动设备分配，完美适配单卡/多卡环境资源使用推荐使用24G以上显存的GPU

文档

文档解析

算子名称	使用方式	算子简介
Xlsx 文档解析	离线	Excel 表格解析处理器，支持多格式输出与结构化数据提取核心功能：支持 xlsx/xls 格式解析输出 markdown 或 html 格式保留表格结构与数据关系支持多工作表处理提供 TOS 存储选项
PDF 文档智能解析	离线	PDF 文档智能解析算子使用前置条件：开通视觉智能产品-文字识别-智能文档解析服务

文档格式转换

算子名称	使用方式	算子简介
PPT文件转换	离线	首次发布”PPT文件转换“算子，作为PPT 转换处理器，支持 PPT/PPTX 转 PDF 及每页图片主要功能：支持将 PPT/PPTX 文档转换为 PDF 文件支持将 PPT/PPTX 转换为按页拆分的 PNG 图片自动处理本地路径与远程路径（TOS/HTTP 等）的下载与上传提供转换超时控制与基础失败兜底
Doc格式转换	离线	文档格式转换处理器，支持多种办公文档格式互转核心功能：支持 doc/docx 到多种格式的转换使用 LibreOffice 进行高质量转换支持本地和云端存储路径提供转换超时控制自动处理文件上传下载

其他

其他

算子名称	使用方式	算子简介
时间戳片段合并	离线	时间戳合并算子 - 秒级区间的规范化、合并与切分核心能力规范化与排序：统一输入格式为 (start, end) 浮点秒并校验合法性。预合并小间隙：合并重叠或间隙小于等于阈值的相邻片段（pre_merge_gap_seconds）。最大静默优先切分：在最长静默处优先切分，保证每段跨度不超过 max_span_seconds。强制切块（可选）：对超长片段按固定窗口切分，确保每段长度不超过上限（enforce_chunking）。

图片

图片处理

算子名称	使用方式	算子简介
图片重采样	离线	图像重采样处理器，支持多种插值算法和输出格式。核心功能提供4种专业级插值算法：最近邻插值（nearest） - 速度最快，适合像素艺术双线性插值（bilinear） - 平衡速度与质量双三次插值（bicubic） - 高精度平滑处理 Lanczos插值（lanczos） - 抗锯齿最佳，适合照片多格式输入支持： URL地址（image_url） Base64编码（image_base64）二进制流（image_binary）双输出模式： Base64编码直出 TOS持久化存储
图像美学评分	离线	图像美学评分处理器，智能评估图像的审美质量和构图效果核心功能：美学评分：对输入图像进行专业美学质量评估构图分析：基于视觉感知理论分析图像构图效果标准化输出：评分范围归一化至0-1，便于后续处理批量处理：支持高效的批量图像评分多格式支持：兼容多种图像输入格式
图片Hash值	离线	图片哈希计算算子：支持 URL、Base64、二进制三类输入格式，统一输出十六进制与二进制哈希。核心功能支持五种哈希方法：`ahash`、`dhash`、`phash`、`whash`、`md5` 输入类型可选：`image_url`、`image_base64`、`image_binary` 支持批量处理
图片安全性检测	离线	图像安全性（NSFW）检测器——支持多源输入与批量推理核心功能使用预训练的图像分类模型进行 NSFW 概率检测，输出每张图片的 NSFW 置信度分数支持多种输入来源：URL 地址（image_url）、Base64 编码（image_base64）、二进制流（image_binary）批量处理：通过配置 batch_size 进行批量推理以提升吞吐性能
图片人脸模糊	离线	首次发布“图片人脸模糊”算子。主要功能：自动检测图片中的人脸并进行模糊处理支持多种模糊类型（均值、盒式、高斯）支持 URL、本地路径、Base64、二进制等多种输入方式可选输出模糊后图片的 Base6
图片人脸检测	离线	首次发布图片人脸检测算子主要功能：自动检测图片中的人脸并返回矩形框列表 (x, y, w, h) 支持 URL、本地路径、Base64、二进制等多种输入方式输出人脸矩形框列表 cpu 和 gpu 环境均可运行

图片向量化

算子名称	使用方式	算子简介
图像 Embedding（ViT 系列模型）	离线	ViT 图像语义嵌入处理器，适用于图像相似性搜索、内容检索等场景。核心功能多模型支持： Google 官方 ViT 模型 Meta DINOv2 视觉模型特征提取模式： CLS Token 嵌入向量全局平均池化输入格式兼容： URL Base64 编码二进制流性能优化： FP16 推理加速多 GPU 并行计算

图片OCR

算子名称	使用方式	算子简介
图像 OCR（EasyOCR）	离线	基于 EasyOCR 的多语言OCR识别组件，支持中英文混合场景下的文本检测与识别。核心功能支持 100+ 种语言识别（需配置对应语言模型）输入格式兼容： TOS URL Base64编码二进制流 Numpy数组性能优化： GPU 加速推理模型量化（默认开启）批量处理优化

视频

视频处理

算子名称	使用方式	算子简介
视频安全性检测	离线	视频安全性检测器 - 多源输入、统一帧采样与批量推理核心功能基于预训练图像分类模型，对视频采样得到的帧进行 NSFW 概率检测，并按聚合策略输出最终分数。支持多种视频输入来源: URL 路径 (video_url) Base64 编码 (video_base64) 二进制流 (video_binary) 支持多种采样方式 (通过 VideoFrameSampler): by_count_uniform / by_interval_time / by_interval_frames / by_fps / by_timestamps 批量推理: 可通过 batch_size 控制推理批量大小，提高吞吐性能。
通用视频格式转换	离线	通用视频格式转换处理器核心功能：支持多种视频格式之间的转换自动选择合适的编码器通过extra_params支持自定义ffmpeg参数
视频帧采样	离线	从视频中采样图像帧处理器，支持多种采样模式及时间范围控制。核心功能: 多种采样方式： by_count_uniform：在时间范围内均匀采K帧 by_interval_time：按时间间隔Δt秒采样 by_interval_frames：按解码帧间隔N采样 by_fps：以目标fps采样 by_timestamps：按给定时间戳列表采样支持起止时间范围限制与是否包含尾帧输出原始帧（array）、base64 编码、时间戳、帧索引与可选的TOS存储路径路径输入或二进制输入两种来源，兼容远端URI（通过 run_on_local_path）
视频元数据提取	离线	视频元数据提取算子核心功能：支持多种视频文件格式提取完整的视频元数据信息使用 ffprobe 工具进行元数据提取支持本地文件、远程文件(TOS/S3)、HTTP/HTTPS链接
视频分辨率调整（离线）	离线	视频分辨率调整核心功能：智能分辨率调整到指定范围内支持多种宽高比保持策略可控制视频质量和编码参数保持音频流不受影响支持路径输入、二进制输入和TOS输出
视频移除音轨	离线	视频音轨移除处理器特点：使用 ffmpeg subprocess 方式移除视频音轨保留原始视频编码和质量（无需重编码）自动下载远程文件 / 上传结果支持超时控制支持多种视频格式
视频音频检测	离线	视频音频检测处理器特点：使用 ffprobe 检测视频中是否存在音频流自动下载远程文件支持超时控制支持多种视频格式返回布尔值表示是否存在音频
视频片段切分(关键帧)	离线	视频关键帧切分处理器，支持智能片段分割。核心功能：多算法关键帧检测： I_frame: 基于I帧检测(推荐) difference: 像素差异检测 histogram: 直方图差异检测支持片段二进制输出或TOS存储提供时间戳定位功能
视频片段切分(时间戳)	离线	视频时间戳切分处理器，支持按指定时间范围分割核心功能：按给定的时间戳区间切分视频支持片段二进制输出或TOS存储提供格式自动推断与自定义
视频转换MP4	离线	视频格式转换处理器，将各种视频格式转换为MP4 核心功能：支持多种视频格式转换为MP4 自动选择第一个音轨视频质量和编码参数自定义支持视频高度限制和缩放音频编码参数精细控制
视频片段切分(时长)	离线	视频片段切分处理器，按固定时长智能分割核心功能：按固定秒长切分视频支持剩余片段最小时长过滤支持片段二进制输出或TOS存储提供格式自动推断与自定义
视频自适应压缩	离线	视频自适应压缩核心功能：根据目标文件大小自适应压缩视频多级压缩策略：帧率调整 -> 分辨率调整 -> 码率控制保持视频质量的前提下尽可能压缩文件大小支持CPU和GPU编码支持路径输入、二进制输入和TOS输出
视频音频抽取	离线	视频音频抽取处理器，支持多流分离核心功能：支持从本地、TOS、HTTP等多种路径或二进制输入的视频中抽取音频流支持多音频流选择、只取第一个流或全部流支持输出音频到TOS、返回二进制、采样率等支持抽取指定时间区间（start_second, end_second）所有输出音频均为 mp3 格式
视频关键帧抽取	离线	视频关键帧抽取处理器，支持多算法动态检测。核心功能：多算法支持：像素差分法(difference) 光流法(optical_flow) 直方图法(histogram) I型关键帧标识(I_frame) 支持自定义阈值与数量控制提供时间戳定位功能支持多种输出格式与存储选项
视频人脸模糊	离线	首次发布视频人脸模糊处理算子主要功能：自动检测视频帧中的人脸并进行模糊处理支持多种模糊类型（均值、盒式、高斯）支持本地路径、远程 URL/TOS 路径以及二进制/BASE64 视频输入统一输出模糊后的视频路径（即使未检测到人脸也会重新编码输出） cpu 和 gpu 环境均可运行
视频运动分计算	离线	视频运动分计算核心功能：多算法支持：支持多种光流计算算法，适应不同场景和性能需求： Farneback：经典稠密光流算法，精度与速度平衡。 TV-L1：基于全变分的光流算法，对光照变化鲁棒。 DIS (Dense Inverse Search)：快速光流算法，支持多种预设（ULTRAFAST, FAST, MEDIUM, accurate）。 MEMFOF：基于深度学习的光流估计算法，精度最高。多维度指标：提供丰富多样的运动评分指标：基础指标：均值、中位数、95分位数。自适应指标：基于画面尺寸归一化的动态分数，消除分辨率影响。密度指标：反映运动区域占比的密度分。智能采样：支持按比例采样和智能降采样，平衡计算开销。高性能计算：支持 CUDA GPU 加速和多进程并行处理。

视频分析

算子名称	使用方式	算子简介
视频质量评分	离线	首次发布视频质量评分算子，视频质量评分处理器，基于 CLIP-IQA 对采样帧评分并聚合为视频质量分核心功能：视频质量评分：对采样帧进行评分并聚合多来源支持：支持 URL/TOS/本地路径/二进制输入可配置采样策略：按帧数、时间间隔、FPS等方式采样可配置聚合方式：avg / max / min

视频内容安全

算子名称	使用方式	算子简介
视频风险识别	离线	基于业务风险识别产品-视频风险识别-视频点播服务进行视频风险识别。

多模态

图片理解

算子名称	使用方式	算子简介
图片内容理解（Qwen VL 系列模型，支持大尺寸模型）	离线	Qwen2.5-VL 多模态图像理解模型，支持视觉语义解析与自然语言描述生成，适用于多种图像分析场景。主要功能多模态时序建模：支持三种图像输入格式（URL、Base64编码、二进制流），灵活适配不同数据源。对话式提示支持：通过 `prompt` 参数自定义生成方向，满足多样化业务需求。高效推理：集成VLLM推理引擎，支持 `bfloat16`、`float16`、`float32` 三种精度，充分利用GPU算力。推荐使用48G及以上显存的GPU
图片内容理解（Qwen VL 系列模型）	离线	Qwen2.5-VL 多模态图像理解模型 - 视觉语义解析与自然语言描述生成核心功能多模态输入处理支持 `URL`/`Base64编码`/`二进制流` 三种图像格式视觉-语言联合建模实现图像内容到语义空间的精准映射对话式提示支持通过 `prompt` 参数引导生成方向资源使用推荐使用48G及以上显存的GPU
图片内容理解（LLaVA 系列模型）	离线	LLaVA 多模态图像理解模型 - 视觉语义解析与自然语言描述生成核心功能多模态输入处理支持 `URL`/`Base64编码`/`二进制流` 三种图像格式视觉-语言联合建模实现图像内容到语义空间的精准映射对话式提示支持通过 `prompt` 参数引导生成方向资源使用推荐使用48G及以上显存的GPU

视频理解

算子名称	使用方式	算子简介
视频内容理解（Qwen VL 系列模型）	离线	Qwen2.5-VL 多模态视频理解模型 - 时序语义解析与自然语言描述生成核心功能多模态时序建模支持 `URL`/`Base64编码`/`二进制流` 三种视频格式时空联合建模捕捉视频时空特征与语义关联对话式提示支持通过 `prompt` 参数引导生成方向资源使用推荐使用48G及以上显存的GPU
视频内容理解（Qwen VL 系列模型，支持大尺寸模型）	离线	Qwen2.5-VL 多模态视频理解模型，支持时序语义解析与自然语言描述生成，适用于多种视频分析场景。主要功能多模态时序建模：支持三种视频输入格式（URL、Base64编码、二进制流），灵活适配不同数据源。时空联合建模：自动捕捉视频的时空特征与语义关联，实现更精准的视频内容理解。对话式提示支持：通过 `prompt` 参数自定义生成方向，满足多样化业务需求。高效推理：集成VLLM推理引擎，支持 `bfloat16`、`float16`、`float32` 三种精度，充分利用GPU算力。推荐使用48G及以上显存的GPU

多模态向量化

算子名称	使用方式	算子简介
图文 embedding（CLIP 模型）	离线	CLIP（Contrastive Language-Image Pretraining）跨模态嵌入生成器，实现基于CLIP模型的图文联合嵌入空间映射核心功能多模态统一编码文本编码：中文文本 → 512/768/1024维语义向量图像编码：图像 → 512/768/1024维视觉特征向量跨模态相似度计算支持余弦相似度/内积计算图文嵌入向量的关联度

音频理解

算子名称	使用方式	算子简介
音频内容理解（Qwen Omni 模型）	离线	Qwen2.5-Omni 多模态音频理解模型 - 音频内容解析与自然语言描述生成核心功能核心功能智能内容理解与描述生成基于音频信号自动生成详细准确的自然语言描述，支持通过 prompt 参数自定义提示词支持mp3、acc、m4a等音频格式高效模型加载与推理优化支持多种计算精度选择（bfloat16、float16、float32），适配不同性能需求集成FlashAttention2加速技术，显著提升推理效率支持自动或手动设备分配，完美适配单卡/多卡环境资源使用推荐使用48G及以上显存的GPU
音频理解（Kimi-Audio 系列模型）	离线	Kimi-Audio 多模态音频理解模型 - 音频语义解析与自然语言描述生成核心功能多模态音频处理支持 `URL`/`Base64编码`/`二进制流` 三种音频格式音频-语言联合建模实现音频内容到语义空间的精准映射对话式提示支持通过 `prompt` 参数引导生成方向资源使用推荐使用48G及以上显存的GPU

最近更新时间：2026.05.12 19:19:44

这个页面对您有帮助吗？

有用

有用

无用

无用