You need to enable JavaScript to run this app.
文档中心
AI 数据湖服务

AI 数据湖服务

复制全文
下载 pdf
算子总览
支持的算子列表:离线算子
复制全文
下载 pdf
支持的算子列表:离线算子

方舟大模型系列

视觉理解

算子名称

使用方式

算子简介

视觉内容理解(豆包系列模型)

  • 离线
  • 使用火山方舟的大模型对图片、视频或文本进行分析理解,并返回文本输出。
  • 核心功能:
    • 多模态场景支持:支持图片、视频、文本的任意组合输入,算子会自动构建符合多模态模型规范的 message 结构。
    • 丰富的输入源:支持 http/https/tos/s3 协议的 URL、Base64 编码及原始二进制数据。TOS/S3 地址会自动进行预签名。
    • 灵活的数据格式:图片、视频、文本列均支持 string(单个)或 list(多个)形式传入。

视觉内容理解(Doubao-1.5-vision-pro)

  • 离线
  • 使用火山方舟的大模型对图片、视频或文本进行分析理解,并返回文本输出。
  • 核心功能:
    • 多模态场景支持:支持图片、视频、文本的任意组合输入,算子会自动构建符合多模态模型规范的 message 结构。
    • 丰富的输入源:支持 http/https/tos/s3 协议的 URL、Base64 编码及原始二进制数据。TOS/S3 地址会自动进行预签名。
    • 灵活的数据格式:图片、视频、文本列均支持 string(单个)或 list(多个)形式传入。

视觉内容理解(Doubao-1.5-vision-pro-32k)

  • 离线
  • 使用火山方舟的大模型对图片、视频或文本进行分析理解,并返回文本输出。
  • 核心功能:
    • 多模态场景支持:支持图片、视频、文本的任意组合输入,算子会自动构建符合多模态模型规范的 message 结构。
    • 丰富的输入源:支持 http/https/tos/s3 协议的 URL、Base64 编码及原始二进制数据。TOS/S3 地址会自动进行预签名。
    • 灵活的数据格式:图片、视频、文本列均支持 string(单个)或 list(多个)形式传入。

文本生成

算子名称

使用方式

算子简介

文本生成(豆包/DeepSeek 系列模型)

  • 离线
  • 大模型文本生成专用处理器(豆包/DeepSeek)
  • 核心功能:
    • 纯文本场景优化:根据用户输入文本数据,自动构建符合模型规范的message结构
    • 输入简化机制:原生支持str类型输入,自动封装为{role: user, content: text}格式
    • 多任务支持:翻译/总结/问答等NLP场景开箱即用
    • 双提示词系统:
      • system_content:系统级行为指导(如翻译风格控制)
      • prompt:用户级指令模板(支持{query}占位符替换)

文本生成(Doubao-lite-32K)

  • 离线
  • 大模型文本生成专用处理器(豆包/DeepSeek)
  • 核心功能:
    • 纯文本场景优化:根据用户输入文本数据,自动构建符合模型规范的message结构
    • 输入简化机制:原生支持str类型输入,自动封装为{role: user, content: text}格式
    • 多任务支持:翻译/总结/问答等NLP场景开箱即用
    • 双提示词系统:
      • system_content:系统级行为指导(如翻译风格控制)
      • prompt:用户级指令模板(支持{query}占位符替换)

文本生成(Doubao-1.5-pro-32K)

  • 离线
  • 大模型文本生成专用处理器(豆包/DeepSeek)
  • 核心功能:
    • 纯文本场景优化:根据用户输入文本数据,自动构建符合模型规范的message结构
    • 输入简化机制:原生支持str类型输入,自动封装为{role: user, content: text}格式
    • 多任务支持:翻译/总结/问答等NLP场景开箱即用
    • 双提示词系统:
      • system_content:系统级行为指导(如翻译风格控制)
      • prompt:用户级指令模板(支持{query}占位符替换)

文本生成(Deepseek-V3)

  • 离线
  • 大模型文本生成专用处理器(豆包/DeepSeek)
  • 核心功能:
    • 纯文本场景优化:根据用户输入文本数据,自动构建符合模型规范的message结构
    • 输入简化机制:原生支持str类型输入,自动封装为{role: user, content: text}格式
    • 多任务支持:翻译/总结/问答等NLP场景开箱即用
    • 双提示词系统:
    • system_content:系统级行为指导(如翻译风格控制)
    • prompt:用户级指令模板(支持{query}占位符替换)

文本生成(Doubao-1.5-lite-32K)

  • 离线
  • 大模型文本生成专用处理器(豆包/DeepSeek)
  • 核心功能:
    • 纯文本场景优化:根据用户输入文本数据,自动构建符合模型规范的message结构
    • 输入简化机制:原生支持str类型输入,自动封装为{role: user, content: text}格式
    • 多任务支持:翻译/总结/问答等NLP场景开箱即用
    • 双提示词系统:
      • system_content:系统级行为指导(如翻译风格控制)
      • prompt:用户级指令模板(支持{query}占位符替换)

深度思考(Deepseek-R1)

  • 离线
  • 基于 DeepSeek-R1 模型的深度思考能力,​使用具备深度思考能力的 DeepSeek-R1 模型对文本进行分析理解,并返回结构化输出。模型在回答问题前,会进行问题分析与拆解,并基于此生成回答。
  • 核心功能:
    • 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content),提升回答的全面性和深入性。
    • 纯文本输入:此算子变体专为文本任务设计,仅支持 texts 列输入。
    • 灵活的思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡。

深度思考(Doubao-1.5-thinking-pro)

  • 离线
  • 模态场景下提供大模型的深度思考能力,​使用具备深度思考能力的 Doubao-1.5-thinking-pro 模型对文本进行分析理解,并返回结构化输出。模型在回答问题前,会进行问题分析与拆解,并基于此生成回答。
  • 核心功能:
    • 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
    • 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
    • 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡

文本向量化

算子名称

使用方式

算子简介

文本向量化(Doubao-embedding-large)

  • 离线

文本向量化(Doubao-embedding)

  • 离线

多模态深度思考

算子名称

使用方式

算子简介

多模态深度思考(豆包系列模型)

  • 离线
  • 多模态场景下提供大模型的深度思考能力,​使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。
  • 核心功能:
    • 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
    • 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
    • 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
    • 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡

多模态深度思考(Doubao-Seed-1.6)

  • 离线
  • 多模态场景下提供大模型的深度思考能力,​使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。
  • 核心功能:
    • 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
    • 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
    • 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
    • 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡

多模态深度思考(Doubao-Seed-1.6-flash)

  • 离线
  • 多模态场景下提供大模型的深度思考能力,​使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。
  • 核心功能:
    • 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
    • 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
    • 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
    • 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡

多模态深度思考(Doubao-Seed-1.6-thinking)

  • 离线
  • 多模态场景下提供大模型的深度思考能力,​使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。
  • 核心功能:
    • 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
    • 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
    • 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
    • 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡

多模态深度思考(Doubao-1.5-thinking-vision-pro)

  • 离线
  • 多模态场景下提供大模型的深度思考能力,​使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。
  • 核心功能:
    • 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
    • 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
    • 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
    • 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡

多模态向量化

算子名称

使用方式

算子简介

图文 embedding(豆包系列模型)

  • 在线
  • 离线
  • 多模态向量生成处理器,支持图像/视频与文本的联合向量生成,实现跨模态检索能力。
  • 核心功能
    • 多模态向量化支持:支持图像/视频与文本的联合向量生成,实现跨模态检索能力,参考文档:https://www.volcengine.com/docs/82379/1523520
    • 输入格式自适应:
      • 原生支持图像/视频的base64编码、二进制数据、URL等输入格式
      • 自动处理媒体格式转换(JPEG/PNG/MP4/AVI等)

音频

音频处理

算子名称

使用方式

算子简介

音频评分(Audiobox Aesthetics)

  • 离线
  • 音频评分算子 - 使用 audiobox_aesthetics 对音频进行质量评分
  • 核心功能
    • 使用 audiobox_aesthetics 模型对音频片段进行质量评分
    • 提供四个评分维度:CE (连贯性/听感投入度)、CU (清晰度/可懂度)、PC (制作质量/构成质量)、PQ (感知质量/主观音质)
    • 支持本地和远程 (tos://) 音频文件
    • 适用于音频质量评估、音频筛选、质量控制等场景

音频静音检测

  • 离线
  • 音频静音检测处理器,智能识别音频是否为完全静音
  • 核心功能:
    • 静音检测:分析整个音频文件,判断是否为静音
    • 可配置阈值:支持自定义静音检测的敏感度阈值(dB)
    • 高效处理:优化的音量分析算法,处理速度快
    • 精确分析:通过专业音量检测技术判断静音状态
    • 支持本地文件、HTTP/HTTPS URL和TOS/S3存储

音频文件大小计算

  • 离线
  • 音频文件元数据分析处理器,精确计算文件大小
  • 核心功能
    • 精确计算音频文件字节大小
    • 支持本地文件与TOS存储
    • 轻量高效,适合批量处理

多语言 CTC 对齐

  • 离线
  • “多语言 CTC 对齐算子”是一个基于 MMS Forced Aligner 模型的多语言音频 CTC 对齐算子(CTC,Connectionist Temporal Classification 的简称),旨在将音频内容与对应的文本脚本在时间维度上精确对齐。
  • 核心功能
    • 支持多语言输入:原生支持中文、英文的文本对齐,满足主流语种处理需求。
    • 支持多渠道输入:无缝处理来自本地文件路径、HTTP URL、TOS/S3 对象存储或原始字节流的音频数据。
    • 自动化预处理:内置针对中英文的文本预处理流程,包括大小写转换、数字展开、拼音转换及罗马化,以适应模型输入要求。此外,内置音频解码和预处理能力,自动将输入音频重采样为 16kHz 采样率的单声道格式,简化了调用流程。

音频滤镜处理

  • 离线
  • 音频滤镜处理器,基于 FFmpeg 的灵活音频效果应用。
  • 核心功能:
    • 通过 FFmpeg 应用常见音频滤镜(volume、highpass、lowpass、bass、treble、aecho 等)
    • 支持本地路径与 TOS/S3 远程路径自动下载与处理
    • 支持将处理结果上传到 TOS,或返回二进制结果

音频格式转换(离线)

  • 离线
  • 音频格式转换处理器
  • 核心功能:
    • 支持音频格式转换(WAV、MP3、FLAC)
    • 自动选择合适的编码器
    • 通过extra_params支持自定义ffmpeg参数
    • 支持本地文件、HTTP/HTTPS URL和TOS/S3存储

音频时长计算

  • 离线
  • 音频时长分析处理器,精确计算音频内容时长
  • 核心功能
    • 精确计算音频时长(秒级精度)
    • 支持本地文件、TOS存储与二进制
    • 基于librosa专业音频处理库

音频片段切分(时间戳)

  • 离线
  • 音频时间戳切分处理器,支持精准片段提取。
  • 核心功能
    • 基于时间戳精确切分音频
    • 支持多输入格式:
    • 本地文件路径
    • TOS存储路径
    • 二进制数据流
    • 支持片段二进制输出或TOS存储

音频转MP3

  • 离线
  • 音频格式转换处理器,将各种音频格式转换为MP3
  • 核心功能:
    • 支持多种音频格式转换为MP3
    • 音频质量和编码参数自定义
    • 支持音频采样率、比特率精细控制
    • 自动选择第一个音轨
    • 支持本地文件、HTTP/HTTPS URL和TOS/S3存储

音频信噪比计算

  • 离线
  • 音频信噪比(SNR)计算器,基于非负矩阵分解(NMF)进行信号-噪声分离
  • 核心功能:
    • 对音频进行 STFT 频谱分析;
    • 使用 NMF 将频谱分解为信号与噪声分量;
    • 基于重建的时域信号与噪声估计能量比值,计算 SNR(单位 dB)。

音频拼接

  • 离线
  • 音频拼接处理器,支持将多个音频文件拼接成一段音频
  • 核心功能
    • 支持拼接多个音频文件为一个音频
    • 支持多输入格式:
    • 本地文件路径
    • TOS/S3存储路径
    • HTTP/HTTPS路径
    • 支持输出到指定路径
    • 自动处理不同采样率和声道的音频
    • 自动根据输出格式选择合适的编码器

音频快速拼接(同源)

  • 离线
  • 音频快速拼接处理器(同源音频)
  • 核心功能
    • 使用 concat demuxer 快速拼接同源音频(无需重编码)
    • 适用于格式、编码、采样率完全相同的音频文件
    • 速度快,无质量损失
    • 支持多输入格式:
    • 本地文件路径
    • TOS/S3存储路径
    • HTTP/HTTPS路径
    • 支持输出到指定路径

音频元数据提取

  • 离线
  • 音频元数据提取算子
  • 功能:
    • 支持音频文件格式
    • 提取完整的音频元数据信息,包括:
    • 基础信息: 时长、格式、比特率
    • 音频信息: 采样率、声道数、编码器
    • 使用 ffprobe 工具进行元数据提取
    • 支持本地文件、远程文件(TOS/S3)、HTTP/HTTPS链接

音频降噪(MossFormer2_SE_48K)

  • 离线
  • 使用MossFormer2_SE_48K进行音频降噪
  • 核心功能
    • 使用MossFormer2_SE_48K进行音频降噪
    • 支持本地文件、TOS存储(tos,s3,http,https等schema)

音频片段切分(时长)

  • 离线
  • 音频按时长切分,支持按固定时长分割音频片段
  • 核心功能
    • 按指定时长切分音频为多个片段
    • 支持多输入格式:
    • 本地文件路径
    • TOS/S3存储路径
    • 二进制数据流
    • 支持片段二进制输出或TOS存储
    • 支持最小片段时长过滤

音频质量评分(DNSMOS)

  • 离线
  • 音频质量评分模块 - 使用 DNSMOS 模型评估音频质量
  • 核心功能
    • 使用 DNSMOS (Deep Noise Suppression Mean Opinion Score) 模型进行音频质量评估
    • 提供整体质量 (OVRL)、信号质量 (SIG)、背景噪声 (BAK) 三个维度的评分
    • 评分范围在 1 到 5 之间,分数越高表示音频质量越好
    • 支持自动采样率转换和音频预处理
    • 适用于语音质量评估、音频筛选、质量控制等场景

音频提取与切分(LAS)

  • 离线
  • 音频提取与切分(LAS)算子,基于 LAS 音频提取与切分服务,从音频/视频中提取音频并按规则切分
  • 核心功能:
    • 从音频或视频中提取音频
    • 支持按时长切分多个片段
    • 支持输出格式与路径模板
    • 支持批量并发处理

语音质量评分(SpeechScore)

  • 离线
  • 音频语音质量评估算子 - 基于 ClearerVoice-Studio/speechscore 计算多项音频质量指标
  • 核心功能
    • 统一封装 SpeechScore,支持无参考与有参考两类指标
    • 可通过参数 metrics 配置计算指标集合,默认计算全部支持指标
    • 支持本地/TOS/HTTP/S3 路径输入;参考音频列 reference_audio_paths 可选
    • 输出为结构化结果,包含 BSSEval、DNSMOS、NISQA、PESQ、STOI、SNR、SRMR 等常见指标

音频格式转换(LAS)

  • 离线
  • 音频格式转换(LAS)算子,基于 LAS 音频格式转换服务,将输入音频转换为指定格式
  • 核心功能
    • 支持多种音频格式之间的转换
    • 支持指定输出格式与FFmpeg参数
    • 支持批量并发处理
    • 适用于音频格式标准化与转码场景

音频识别

算子名称

使用方式

算子简介

音频多语种识别(whisper)

  • 离线
  • AudioLidWhisper 音频语言识别处理器
  • 核心功能
    • 音频解码:支持多种格式音频 → 16kHz 波形数据
    • 语言检测:基于Whisper-large模型识别几十种语言代码
    • 全称映射:自动转换语言代码为完整语言名称

语音转文字(豆包语音ASR)

  • 离线
  • 语音识别模块 - 基于LAS ASR服务的录音转写解决方案
  • 核心功能
    • 接入火山引擎LAS ASR接口
    • 支持自动断句、数字规整、说话人或通道分离(可选)
    • 并发处理多个音频文件,提供结构化 JSON 与可读文本两种输出
    • 适合转写最长2小时的录音文件,支持标点补全、智能断句、说话人分离等高级功能。

语音转文字(FireRed)

  • 离线
  • 语音识别模块 - 基于 FireRed ASR 模型的多语言语音转文字解决方案
  • 核心功能
    • 多语言识别:支持中英文、以及中文方言
    • 多模型选择:支持多种模型,包括AED模型和LLM模型
    • 音频类型: 支持单声道、16K采样率的wav音频文件

语音转文字(whisper 系列模型)

  • 离线
  • 语音识别模块 - 基于Whisper模型的多语言语音转文字解决方案
  • 核心功能
    • 多语言识别:支持中英文等主流语言
    • 语音翻译:可将识别结果翻译为英文

语种识别及ASR(whisper 系列模型)

  • 离线
  • 语种识别 + 语言识别模块 - 基于Whisper模型的多语言 LID + ASR 解决方案
  • 核心功能
    • 多语言识别:支持中英文等百种语言
    • 语言识别(LID):在识别文本的同时输出语言标签(例如 enzh
    • 标点符号恢复:可选的中英文标点恢复功能,提升文本可读性

语音端点识别(Silero 模型)

  • 离线
  • 语音端点检测模块 - 基于 Silero VAD 的高效音频分割解决方案
  • 核心功能
    • 语音端点检测:自动识别音频中的语音片段起止时间,实现语音与静音的精准分割
    • 批量处理:支持大批量音频数据的高效端点检测
    • 多格式输入:兼容原始二进制、Base64 编码、TOS/HTTP 链接等多种音频输入方式
    • GPU 加速:支持 GPU 环境下的高性能推理
    • 通用性强:在处理不同领域、存在各种背景噪声和质量水平的音频时表现优异

语音端点识别(FSMN 模型)

  • 离线
  • 语音端点检测模块 - 基于 FSMN VAD 的高效音频分割解决方案
  • 核心功能
    • 语音端点检测:自动识别音频中的语音片段起止时间,实现语音与静音的精准分割
    • 批量处理:支持大批量音频数据的高效端点检测
    • 多格式输入:兼容原始二进制、Base64 编码、TOS/HTTP 链接等多种音频输入方式
    • GPU 加速:支持 GPU 环境下的高性能推理

说话人确认(ERes2Net)

  • 离线
  • AudioSpeakerVerificationEres2net 音频说话人验证处理器
  • 核心功能
    • 说话人验证:判断两段音频是否为同一说话人,输出相似度分数
    • 多源音频支持:支持本地文件、URL、对象存储、base64、binary等多种音频输入类型
    • 批量处理:支持批量音频对的高效验证与异常处理

音频生成

算子名称

使用方式

算子简介

文字转语音(豆包语音大模型)

  • 离线
  • 语音合成模块 - 基于豆包语音大模型的文本转音频解决方案
  • 核心功能
    • 接入火山引擎大模型(volc.tts)的语音合成接口
    • 支持多种参数配置,如音色、情绪、编码格式、语速、采样率等
    • 并发处理多个文本输入,输出 Base64 编码音频及原始响应
    • 适合用于语音播报、虚拟人声音生成、听力内容制作等场景

音频预处理

算子名称

使用方式

算子简介

音频格式标准化

  • 离线
  • 音频标准化模块 - 将音频统一为指定格式(采样率、声道、响度等)
  • 核心功能
    • 支持采样率重采样
    • 支持声道统一(如转为单声道)
    • 支持响度归一化(目标 dBFS,带限制增益范围)
    • 默认输入输出音频为字节(bytes)格式

音频分类

算子名称

使用方式

算子简介

多语言语音分类

  • 离线
  • 语音分类模块 - 基于 BEATs 模型的多语言语音分类解决方案,​AudioBeatsClassifier 是一个基于 BEATs 模型的音频分类算子,用于识别音频中的主要声音事件,并返回概率最高的 Top K 个分类标签。
  • 核心功能
    • 支持多类型音频:能够自动处理多种类型的音频,识别出来自 Google AudioSet 定义的 527 类声音,例如“音乐”、“语音”、“警报声”或“动物叫声”等。
    • 支持多渠道输入:无缝处理来自本地文件路径、HTTP URL、TOS/S3 对象存储或原始字节流的音频数据。
    • 自动化预处理:内置音频解码和预处理能力,自动将输入音频重采样为 16kHz 采样率的单声道格式,简化了调用流程。

音频安全识别

算子名称

使用方式

算子简介

音频风险识别

  • 离线
  • 音频风险识别
  • 算子使用前置条件:开通业务风险识别产品-音频风险识别-音频点播服务,

文本

TOS路径预签名

算子名称

使用方式

算子简介

生成TOS的普通预签名

  • 离线
  • TOS 预签名 URL 生成处理器
  • 核心功能:
    • 签名生成机制:基于火山引擎 TOS SDK 生成带时效性的预签名 URL
    • URL schema 处理:
      • 原生支持 tos/s3 协议路径的签名转换
      • 自动跳过包含 http/https 协议的路径
    • 安全控制:
      • 可配置签名有效期(默认 3600 秒)

文本处理

算子名称

使用方式

算子简介

URL占比计算器

  • 离线
  • URL占比计算器 - 基于URL字符占比的文本特征提取
  • 核心功能
    • URL占比计算:精确统计URL字符在文本中的占比
    • 多协议支持:支持HTTP、HTTPS等多种URL协议
    • 智能识别:使用正则表达式精确识别URL格式

中文简繁体转换

  • 离线
  • 基于 OpenCC 的中文简繁体转换算子
  • 核心功能
    • 多方向转换:支持简繁体、台湾正体、香港繁体等多种转换方向
    • 混合文本处理:正确处理中英文混杂内容,仅转换中文部分
    • 高效批处理:支持大批量文本的快速转换处理

文本安全性评分器

  • 离线
  • 文本安全性评分器 - 基于ShieldLM-6B-chatglm3的安全性评估
  • 核心功能
    • 多语言支持:支持中文和英文文本安全性评估
    • 三分类评估:输出safe、unsafe、controversial三类概率
    • 批量处理:支持批量文本安全性评估,提升处理效率

最大英文单词长度计算器

  • 离线
  • 最大英文单词长度计算器 - 统计文本中英文单词的最大长度
  • 核心功能
    • 英文单词识别:使用正则表达式识别文本中的英文单词
    • 最大长度计算:计算所有英文单词中的最大长度
    • 批量处理:支持批量文本的最大英文单词长度计算

词重复比例计算器

  • 离线
  • 词重复比例计算器 - 基于N-gram词组重复比例的文本特征提取
  • 核心功能
    • 词重复比例计算:精确统计文本中重复词组的比例
    • 双语言支持:支持中文、英文的分词处理
    • 灵活配置:支持不同长度的N-gram词组计算

重复行计算器

  • 离线
  • 重复行计算器 - 计算文本中重复行的比例
  • 核心功能
    • 重复行检测:自动识别文本中重复的行内容
    • 比例计算:计算重复行数与原始行数的比值
    • 质量评估:评估文本的重复程度和质量

文本 chunk 切分(基于语义)

  • 离线
  • 语义文本分块处理器 - 基于句子相似度的智能文本切分解决方案
  • 核心功能
    • 语义分块策略
      • 基于句子相似度的智能切分
      • 结合语义与语法规则
      • 重叠优化保持上下文连贯性
    • 支持中英文混合文本
      • 支持中英文字符和标点
      • 智能识别句子边界

版权声明移除

  • 离线
  • 版权声明移除器 - 移除文本中跟版权声明相关的文本
  • 核心功能
    • 版权声明检测:自动识别代码中的版权声明注释
    • 智能清理:根据版权声明特征进行精确的内容移除
    • 多格式支持:支持块注释和行注释格式

CommonCrawl WARC文件内容提取

  • 离线
  • CommonCrawl网页内容提取器,支持多种解析策略
  • 核心功能:
    • 多解析器支持:trafilatura/justext/goose3
    • 支持本地和远程WARC文件
    • 支持二进制数据和base64编码
    • 批量处理WARC文件,提取网页正文
    • 智能内容提取,过滤广告和导航元素

文本长度计算器

  • 离线
  • 文本长度计算器 - 计算文本的字符长度
  • 核心功能
    • 文本长度计算:计算输入文本的字符数量
    • 批量处理:支持批量文本长度计算
    • 数值输出:返回整数类型的长度值

字符占比计算器

  • 离线
  • 字符占比计算器 - 基于字母和数字字符占比的文本特征提取
  • 核心功能
    • 字符占比计算:精确统计字母和数字字符在文本中的占比
    • 分词模式支持:可选择基于分词或字符级别的占比计算
    • 多语言支持:支持英文、中文、日文、韩文等多种语言的字符识别

特殊字符占比计算器

  • 离线
  • 特殊字符占比计算器 - 基于特殊字符占比的文本特征提取
  • 核心功能
    • 特殊字符占比计算:精确统计特殊字符在文本中的占比
    • 多粒度支持:可选择不同类型的特殊字符进行计算
    • 灵活配置:支持计算所有特殊字符或特定类型字符的占比

文本 chunk 切分(基于句子结构)

  • 离线
  • 多格式文本分块处理器 - 结构化解析与智能切分解决方案
  • 核心功能
    • 支持格式
      • 纯文本:基于段落/标点的语义分块
      • Markdown:保留文档结构,过滤图片链接
      • HTML:提取正文内容,保留章节结构
    • 智能分块策略
      • 结合语义与语法规则
      • 重叠优化保持上下文连贯性

文本链接移除

  • 离线
  • 超链接移除算子 - 文本链接正则替换
  • 核心功能
    • 识别协议链接、www 链接、域名 + 路径等通用形式的超链接
    • 将命中的超链接替换为指定字符串(repl),默认替换为""
    • 批量处理字符串,异常项返回 None

困惑度计算器

  • 离线
  • 困惑度计算算子 - 基于语言模型的文本质量评估解决方案
  • 核心功能
    • 语言模型评估
      • 基于 KenLM 语言模型计算文本困惑度
      • 支持中英文文本质量评估
      • 提供文本可读性指标
    • 质量评估
      • 困惑度越低,文本质量越高
      • 适用于文本质量筛选和评估

空白字符标准化器

  • 离线
  • 空白字符标准化器 - 将文本中不同种类的空白符号替换成标准空格
  • 核心功能
    • 空白字符识别:自动识别各种Unicode空白字符
    • 标准化处理:将所有空白字符替换为标准空格

项目符号行占比计算器

  • 离线
  • 项目符号行占比计算器 - 计算文本中项目符号行的比例
  • 核心功能
    • 项目符号检测:自动识别文本中以项目符号开头的行
    • 比例计算:计算项目符号行数与总行数的比值

MD5 哈希计算

  • 离线
  • MD5哈希值计算器 - 计算文本的MD5指纹
  • 核心功能
    • 针对每条文本数据生成对应的MD5哈希值
    • 输出固定长度(32位小写十六进制)指纹
    • 支持批量处理

文本分类

算子名称

使用方式

算子简介

多语言语音分类

  • 离线
  • 语音分类模块 - 基于 BEATs 模型的多语言语音分类解决方案,​AudioBeatsClassifier 是一个基于 BEATs 模型的音频分类算子,用于识别音频中的主要声音事件,并返回概率最高的 Top K 个分类标签。
  • 核心功能
    • 支持多类型音频:能够自动处理多种类型的音频,识别出来自 Google AudioSet 定义的 527 类声音,例如“音乐”、“语音”、“警报声”或“动物叫声”等。
    • 支持多渠道输入:无缝处理来自本地文件路径、HTTP URL、TOS/S3 对象存储或原始字节流的音频数据。
    • 自动化预处理:内置音频解码和预处理能力,自动将输入音频重采样为 16kHz 采样率的单声道格式,简化了调用流程。

文本质量评估

算子名称

使用方式

算子简介

多语言文本质量评分

  • 离线
  • 多语言文本质量评分算子 - 基于E5模型的多语言文本质量评估
  • 核心功能
    • 多语言支持:使用multilingual-e5模型支持多种语言的文本质量评分
    • 深度学习评估:基于Transformer架构的E5模型进行质量评估
    • GPU加速:支持GPU推理加速,提高处理效率
    • 批量处理:支持批量处理文本,优化推理性能

英文文本质量评分

  • 离线
  • 英文文本质量评分算子 - 基于FastText的文本质量评估
  • 核心功能
    • 质量评分:使用FastText模型对英文文本质量进行评分,偏好于科学知识,只支持CPU环境。
    • 批量处理:支持批量处理文本,提高处理效率

文本清洗

算子名称

使用方式

算子简介

html 标签移除

  • 离线
  • HTML文档净化处理器 - 多结构解析与智能清理解决方案
  • 核心功能
    • 多结构解析
      • 标题提取:自动识别<h1>-<h6>标签
      • 正文抽取:智能识别文章主体内容
      • 冗余过滤:移除<script>/<style>等非文本标签
    • 智能处理
      • 容错机制:支持残缺HTML片段解析
      • 格式保留:维持文本段落结构与换行逻辑

Email 地址清理

  • 离线
  • 基于正则的 Email 地址清理算子。
  • 核心功能
    • 多场景支持:内置通用匹配模式,同时允许注入自定义正则表达式。
    • 可控替换:可配置替换串,实现脱敏或占位填充。
    • 批量兼容:支持数组批量处理

特定字符替换

  • 离线
  • 正则表达式批量替换处理器
  • 核心功能
    • 双模式替换机制:
      • 精确字符串匹配替换
      • 正则表达式模式匹配替换
    • 批量处理能力:
      • 支持多组 pattern-replacement 对并行处理
    • 容错机制:
      • 异常模式跳过并记录详细日志

文本向量化

算子名称

使用方式

算子简介

文本 embedding(BGE模型)

  • 离线
  • 基于 BGE 系列的文本嵌入模型,支持稠密向量生成
  • 核心功能
    • 多模型支持:
      • 支持 BGE-M3、BGE-Large-zh-v1.5、BGE-Large-en-v1.5、BGE-Multilingual-Gemma2 等模型
      • 每个模型有不同的输入提示,用户可以根据需要选择不同的模型
    • 硬件加速:支持 FP16 量化与 GPU 并行计算

文本 sparse & dense embedding(BGE模型)

  • 离线
  • 基于 BGE-M3 的文本嵌入模型,支持稀疏/稠密/token 三级向量生成
  • 核心功能
    • 多粒度嵌入输出:
      • 稀疏向量:词项权重表示,适合关键词检索
      • 稠密向量:1024维语义表示,适合语义相似度计算
      • Token向量:细粒度上下文表征
    • 硬件加速:支持 FP16 量化与 GPU 并行计算

文本安全识别

算子名称

使用方式

算子简介

文本内容风险识别

  • 离线
  • 文本内容风险识别
  • 算子使用前置条件:开通业务风险识别产品-文本风险识别,

文本翻译

算子名称

使用方式

算子简介

多语言文本翻译

  • 离线
  • Seed-X 多语言文本翻译模型 - 跨语言文本翻译 核心功能
  • 核心功能
    • 多语言智能翻译
    • 支持多种语言间的文本转换,可通过source_language和target_language参数自定义源语言和目标语言
    • 基于Seed-X-Instruct-7B/Seed-X-PPO-7B模型,提供高质量翻译结果
    • 支持语种请参考: https://huggingface.co/ByteDance-Seed/Seed-X-Instruct-7B
    • 一般场景中,推荐使用Seed-X-PPO-7B模型,其在翻译质量上效果更佳
    • 灵活配置与优化
    • 支持多种计算精度选择(bfloat16等),适配不同性能需求
    • 集成张量并行处理和前缀缓存技术,显著提升推理效率
    • 支持自动或手动设备分配,完美适配单卡/多卡环境
    • 资源使用
    • 推荐使用24G以上显存的GPU

文档

文档解析

算子名称

使用方式

算子简介

Xlsx 文档解析

  • 离线
  • Excel 表格解析处理器,支持多格式输出与结构化数据提取
  • 核心功能:
    • 支持 xlsx/xls 格式解析
    • 输出 markdown 或 html 格式
    • 保留表格结构与数据关系
    • 支持多工作表处理
    • 提供 TOS 存储选项

PDF 文档智能解析

  • 离线
  • PDF 文档智能解析
  • 算子使用前置条件:开通视觉智能产品-文字识别-智能文档解析服务

文档格式转换

算子名称

使用方式

算子简介

PPT文件转换

  • 离线
  • 首次发布”PPT文件转换“算子,作为PPT 转换处理器,支持 PPT/PPTX 转 PDF 及每页图片
  • 主要功能:
    • 支持将 PPT/PPTX 文档转换为 PDF 文件
    • 支持将 PPT/PPTX 转换为按页拆分的 PNG 图片
    • 自动处理本地路径与远程路径(TOS/HTTP 等)的下载与上传
    • 提供转换超时控制与基础失败兜底

Doc格式转换

  • 离线
  • 文档格式转换处理器,支持多种办公文档格式互转
  • 核心功能:
    • 支持 doc/docx 到多种格式的转换
    • 使用 LibreOffice 进行高质量转换
    • 支持本地和云端存储路径
    • 提供转换超时控制
    • 自动处理文件上传下载

其他

其他

算子名称

使用方式

算子简介

时间戳片段合并

  • 离线
  • 时间戳合并算子 - 秒级区间的规范化、合并与切分
  • 核心能力
    • 规范化与排序:统一输入格式为 (start, end) 浮点秒并校验合法性。
    • 预合并小间隙:合并重叠或间隙小于等于阈值的相邻片段(pre_merge_gap_seconds)。
    • 最大静默优先切分:在最长静默处优先切分,保证每段跨度不超过 max_span_seconds。
    • 强制切块(可选):对超长片段按固定窗口切分,确保每段长度不超过上限(enforce_chunking)。

图片

图片处理

算子名称

使用方式

算子简介

图片重采样

  • 离线
  • 图像重采样处理器,支持多种插值算法和输出格式。
  • 核心功能
    • 提供4种专业级插值算法:
      • 最近邻插值(nearest) - 速度最快,适合像素艺术
      • 双线性插值(bilinear) - 平衡速度与质量
      • 双三次插值(bicubic) - 高精度平滑处理
      • Lanczos插值(lanczos) - 抗锯齿最佳,适合照片
    • 多格式输入支持:
      • URL地址(image_url)
      • Base64编码(image_base64)
      • 二进制流(image_binary)
    • 双输出模式:
      • Base64编码直出
      • TOS持久化存储

图像美学评分

  • 离线
  • 图像美学评分处理器,智能评估图像的审美质量和构图效果
  • 核心功能:
    • 美学评分:对输入图像进行专业美学质量评估
    • 构图分析:基于视觉感知理论分析图像构图效果
    • 标准化输出:评分范围归一化至0-1,便于后续处理
    • 批量处理:支持高效的批量图像评分
    • 多格式支持:兼容多种图像输入格式

图片Hash值

  • 离线
  • 图片哈希计算算子:支持 URL、Base64、二进制三类输入格式,统一输出十六进制与二进制哈希。
  • 核心功能
    • 支持五种哈希方法:ahashdhashphashwhashmd5
    • 输入类型可选:image_urlimage_base64image_binary
    • 支持批量处理

图片安全性检测

  • 离线
  • 图像安全性(NSFW)检测器——支持多源输入与批量推理
  • 核心功能
    • 使用预训练的图像分类模型进行 NSFW 概率检测,输出每张图片的 NSFW 置信度分数
    • 支持多种输入来源:URL 地址(image_url)、Base64 编码(image_base64)、二进制流(image_binary)
    • 批量处理:通过配置 batch_size 进行批量推理以提升吞吐性能

图片人脸模糊

  • 离线
  • 首次发布“图片人脸模糊”算子。
  • 主要功能:
    • 自动检测图片中的人脸并进行模糊处理
    • 支持多种模糊类型(均值、盒式、高斯)
    • 支持 URL、本地路径、Base64、二进制等多种输入方式
    • 可选输出模糊后图片的 Base6

图片人脸检测

  • 离线
  • 首次发布图片人脸检测算子
  • 主要功能:
    • 自动检测图片中的人脸并返回矩形框列表 (x, y, w, h)
    • 支持 URL、本地路径、Base64、二进制等多种输入方式
    • 输出人脸矩形框列表
    • cpu 和 gpu 环境均可运行

图片向量化

算子名称

使用方式

算子简介

图像 Embedding(ViT 系列模型)

  • 离线
  • ViT 图像语义嵌入处理器,适用于图像相似性搜索、内容检索等场景。
  • 核心功能
    • 多模型支持:
      • Google 官方 ViT 模型
      • Meta DINOv2 视觉模型
    • 特征提取模式:
      • CLS Token 嵌入向量
      • 全局平均池化
    • 输入格式兼容:
      • URL
      • Base64 编码
      • 二进制流
    • 性能优化:
      • FP16 推理加速
      • 多 GPU 并行计算

图片OCR

算子名称

使用方式

算子简介

图像 OCR(EasyOCR)

  • 离线
  • 基于 EasyOCR 的多语言OCR识别组件,支持中英文混合场景下的文本检测与识别。
  • 核心功能
    • 支持 100+ 种语言识别(需配置对应语言模型)
    • 输入格式兼容:
      • TOS URL
      • Base64编码
      • 二进制流
      • Numpy数组
    • 性能优化:
      • GPU 加速推理
      • 模型量化(默认开启)
      • 批量处理优化

视频

视频处理

算子名称

使用方式

算子简介

视频安全性检测

  • 离线
  • 视频安全性检测器 - 多源输入、统一帧采样与批量推理
  • 核心功能
    • 基于预训练图像分类模型,对视频采样得到的帧进行 NSFW 概率检测,并按聚合策略输出最终分数。
    • 支持多种视频输入来源:
    • URL 路径 (video_url)
    • Base64 编码 (video_base64)
    • 二进制流 (video_binary)
    • 支持多种采样方式 (通过 VideoFrameSampler):
    • by_count_uniform / by_interval_time / by_interval_frames / by_fps / by_timestamps
    • 批量推理:
    • 可通过 batch_size 控制推理批量大小,提高吞吐性能。

通用视频格式转换

  • 离线
  • 通用视频格式转换处理器
  • 核心功能:
    • 支持多种视频格式之间的转换
    • 自动选择合适的编码器
    • 通过extra_params支持自定义ffmpeg参数

视频帧采样

  • 离线
  • 从视频中采样图像帧处理器,支持多种采样模式及时间范围控制。
  • 核心功能:
    • 多种采样方式:
    • by_count_uniform:在时间范围内均匀采K帧
    • by_interval_time:按时间间隔Δt秒采样
    • by_interval_frames:按解码帧间隔N采样
    • by_fps:以目标fps采样
    • by_timestamps:按给定时间戳列表采样
    • 支持起止时间范围限制与是否包含尾帧
    • 输出原始帧(array)、base64 编码、时间戳、帧索引与可选的TOS存储路径
    • 路径输入或二进制输入两种来源,兼容远端URI(通过 run_on_local_path)

视频元数据提取

  • 离线
  • 视频元数据提取算子
  • 核心功能:
    • 支持多种视频文件格式
    • 提取完整的视频元数据信息
    • 使用 ffprobe 工具进行元数据提取
    • 支持本地文件、远程文件(TOS/S3)、HTTP/HTTPS链接

视频分辨率调整(离线)

  • 离线
  • 视频分辨率调整
  • 核心功能:
    • 智能分辨率调整到指定范围内
    • 支持多种宽高比保持策略
    • 可控制视频质量和编码参数
    • 保持音频流不受影响
    • 支持路径输入、二进制输入和TOS输出

视频移除音轨

  • 离线
  • 视频音轨移除处理器
  • 特点:
    • 使用 ffmpeg subprocess 方式移除视频音轨
    • 保留原始视频编码和质量(无需重编码)
    • 自动下载远程文件 / 上传结果
    • 支持超时控制
    • 支持多种视频格式

视频音频检测

  • 离线
  • 视频音频检测处理器
  • 特点:
    • 使用 ffprobe 检测视频中是否存在音频流
    • 自动下载远程文件
    • 支持超时控制
    • 支持多种视频格式
    • 返回布尔值表示是否存在音频

视频片段切分(关键帧)

  • 离线
  • 视频关键帧切分处理器,支持智能片段分割。
  • 核心功能:
    • 多算法关键帧检测:
    • I_frame: 基于I帧检测(推荐)
    • difference: 像素差异检测
    • histogram: 直方图差异检测
    • 支持片段二进制输出或TOS存储
    • 提供时间戳定位功能

视频片段切分(时间戳)

  • 离线
  • 视频时间戳切分处理器,支持按指定时间范围分割
  • 核心功能:
    • 按给定的时间戳区间切分视频
    • 支持片段二进制输出或TOS存储
    • 提供格式自动推断与自定义

视频转换MP4

  • 离线
  • 视频格式转换处理器,将各种视频格式转换为MP4
  • 核心功能:
    • 支持多种视频格式转换为MP4
    • 自动选择第一个音轨
    • 视频质量和编码参数自定义
    • 支持视频高度限制和缩放
    • 音频编码参数精细控制

视频片段切分(时长)

  • 离线
  • 视频片段切分处理器,按固定时长智能分割
  • 核心功能:
    • 按固定秒长切分视频
    • 支持剩余片段最小时长过滤
    • 支持片段二进制输出或TOS存储
    • 提供格式自动推断与自定义

视频自适应压缩

  • 离线
  • 视频自适应压缩
  • 核心功能:
    • 根据目标文件大小自适应压缩视频
    • 多级压缩策略:帧率调整 -> 分辨率调整 -> 码率控制
    • 保持视频质量的前提下尽可能压缩文件大小
    • 支持CPU和GPU编码
    • 支持路径输入、二进制输入和TOS输出

视频音频抽取

  • 离线
  • 视频音频抽取处理器,支持多流分离
  • 核心功能:
    • 支持从本地、TOS、HTTP等多种路径或二进制输入的视频中抽取音频流
    • 支持多音频流选择、只取第一个流或全部流
    • 支持输出音频到TOS、返回二进制、采样率等
    • 支持抽取指定时间区间(start_second, end_second)
    • 所有输出音频均为 mp3 格式

视频关键帧抽取

  • 离线
  • 视频关键帧抽取处理器,支持多算法动态检测。
  • 核心功能:
    • 多算法支持:
      • 像素差分法(difference)
      • 光流法(optical_flow)
      • 直方图法(histogram)
      • I型关键帧标识(I_frame)
    • 支持自定义阈值与数量控制
    • 提供时间戳定位功能
    • 支持多种输出格式与存储选项

视频人脸模糊

  • 离线
  • 首次发布视频人脸模糊处理算子
  • 主要功能:
    • 自动检测视频帧中的人脸并进行模糊处理
    • 支持多种模糊类型(均值、盒式、高斯)
    • 支持本地路径、远程 URL/TOS 路径以及二进制/BASE64 视频输入
    • 统一输出模糊后的视频路径(即使未检测到人脸也会重新编码输出)
    • cpu 和 gpu 环境均可运行

视频运动分计算

  • 离线
  • 视频运动分计算
  • 核心功能:
    • 多算法支持:支持多种光流计算算法,适应不同场景和性能需求:
    • Farneback:经典稠密光流算法,精度与速度平衡。
    • TV-L1:基于全变分的光流算法,对光照变化鲁棒。
    • DIS (Dense Inverse Search):快速光流算法,支持多种预设(ULTRAFAST, FAST, MEDIUM, accurate)。
    • MEMFOF:基于深度学习的光流估计算法,精度最高。
    • 多维度指标:提供丰富多样的运动评分指标:
    • 基础指标:均值、中位数、95分位数。
    • 自适应指标:基于画面尺寸归一化的动态分数,消除分辨率影响。
    • 密度指标:反映运动区域占比的密度分。
    • 智能采样:支持按比例采样和智能降采样,平衡计算开销。
    • 高性能计算:支持 CUDA GPU 加速和多进程并行处理。

视频分析

算子名称

使用方式

算子简介

视频质量评分

  • 离线
  • 首次发布视频质量评分算子,视频质量评分处理器,基于 CLIP-IQA 对采样帧评分并聚合为视频质量分
  • 核心功能:
    • 视频质量评分:对采样帧进行评分并聚合
    • 多来源支持:支持 URL/TOS/本地路径/二进制输入
    • 可配置采样策略:按帧数、时间间隔、FPS等方式采样
    • 可配置聚合方式:avg / max / min

视频内容安全

算子名称

使用方式

算子简介

视频风险识别

  • 离线
  • 基于业务风险识别产品-视频风险识别-视频点播服务进行视频风险识别。

多模态

图片理解

算子名称

使用方式

算子简介

图片内容理解(Qwen VL 系列模型,支持大尺寸模型)

  • 离线
  • Qwen2.5-VL 多模态图像理解模型,支持视觉语义解析与自然语言描述生成,适用于多种图像分析场景。
  • 主要功能
    • 多模态时序建模:支持三种图像输入格式(URL、Base64编码、二进制流),灵活适配不同数据源。
    • 对话式提示支持:通过 prompt 参数自定义生成方向,满足多样化业务需求。
    • 高效推理:集成VLLM推理引擎,支持 bfloat16float16float32 三种精度,充分利用GPU算力。
    • 推荐使用48G及以上显存的GPU

图片内容理解(Qwen VL 系列模型)

  • 离线
  • Qwen2.5-VL 多模态图像理解模型 - 视觉语义解析与自然语言描述生成
  • 核心功能
    • 多模态输入处理
    • 支持 URL/Base64编码/二进制流 三种图像格式
    • 视觉-语言联合建模
    • 实现图像内容到语义空间的精准映射
    • 对话式提示支持
    • 通过 prompt 参数引导生成方向
    • 资源使用
    • 推荐使用48G及以上显存的GPU

图片内容理解(LLaVA 系列模型)

  • 离线
  • LLaVA 多模态图像理解模型 - 视觉语义解析与自然语言描述生成
  • 核心功能
    • 多模态输入处理
    • 支持 URL/Base64编码/二进制流 三种图像格式
    • 视觉-语言联合建模
    • 实现图像内容到语义空间的精准映射
    • 对话式提示支持
    • 通过 prompt 参数引导生成方向
    • 资源使用
    • 推荐使用48G及以上显存的GPU

视频理解

算子名称

使用方式

算子简介

视频内容理解(Qwen VL 系列模型)

  • 离线
  • Qwen2.5-VL 多模态视频理解模型 - 时序语义解析与自然语言描述生成
  • 核心功能
    • 多模态时序建模
    • 支持 URL/Base64编码/二进制流 三种视频格式
    • 时空联合建模
    • 捕捉视频时空特征与语义关联
    • 对话式提示支持
    • 通过 prompt 参数引导生成方向
    • 资源使用
    • 推荐使用48G及以上显存的GPU

视频内容理解(Qwen VL 系列模型,支持大尺寸模型)

  • 离线
  • Qwen2.5-VL 多模态视频理解模型,支持时序语义解析与自然语言描述生成,适用于多种视频分析场景。
  • 主要功能
    • 多模态时序建模:支持三种视频输入格式(URL、Base64编码、二进制流),灵活适配不同数据源。
    • 时空联合建模:自动捕捉视频的时空特征与语义关联,实现更精准的视频内容理解。
    • 对话式提示支持:通过 prompt 参数自定义生成方向,满足多样化业务需求。
    • 高效推理:集成VLLM推理引擎,支持 bfloat16float16float32 三种精度,充分利用GPU算力。
    • 推荐使用48G及以上显存的GPU

多模态向量化

算子名称

使用方式

算子简介

图文 embedding(CLIP 模型)

  • 离线
  • CLIP(Contrastive Language-Image Pretraining)跨模态嵌入生成器,实现基于CLIP模型的图文联合嵌入空间映射
  • 核心功能
    • 多模态统一编码
    • 文本编码:中文文本 → 512/768/1024维语义向量
    • 图像编码:图像 → 512/768/1024维视觉特征向量
    • 跨模态相似度计算
    • 支持余弦相似度/内积计算图文嵌入向量的关联度

音频理解

算子名称

使用方式

算子简介

音频内容理解(Qwen Omni 模型)

  • 离线
  • Qwen2.5-Omni 多模态音频理解模型 - 音频内容解析与自然语言描述生成 核心功能
  • 核心功能
    • 智能内容理解与描述生成
    • 基于音频信号自动生成详细准确的自然语言描述,支持通过 prompt 参数自定义提示词
    • 支持mp3、acc、m4a等音频格式
    • 高效模型加载与推理优化
    • 支持多种计算精度选择(bfloat16、float16、float32),适配不同性能需求
    • 集成FlashAttention2加速技术,显著提升推理效率
    • 支持自动或手动设备分配,完美适配单卡/多卡环境
    • 资源使用
    • 推荐使用48G及以上显存的GPU

音频理解(Kimi-Audio 系列模型)

  • 离线
  • Kimi-Audio 多模态音频理解模型 - 音频语义解析与自然语言描述生成
  • 核心功能
    • 多模态音频处理
    • 支持 URL/Base64编码/二进制流 三种音频格式
    • 音频-语言联合建模
    • 实现音频内容到语义空间的精准映射
    • 对话式提示支持
    • 通过 prompt 参数引导生成方向
    • 资源使用
    • 推荐使用48G及以上显存的GPU
最近更新时间:2026.05.12 19:19:44
这个页面对您有帮助吗?
有用
有用
无用
无用