在线算子 API--AI 数据湖服务-火山引擎

文档中心

AI 数据湖服务

API 参考：算子调用 API

在线算子 API

在线算子 API

火山引擎 LAS 为您提供多种在线算子，您可以使用灵活调用对应算子的API进行数据处理。本文为您介绍当前支持的在线算子列表，您可单击对应算子名称的链接，查看各个算子的详细 API 调用说明。

视频

视频剪辑

算子名称	使用方式	算子简介
视频智能剪辑	在线	视频智能剪辑算子，基于多模态大模型实现视频智能剪辑能力，帮助用户从长视频中快速提取有价值的内容片段。支持自然语言描述的剪辑需求理解、参考图像辅助识别（角色、物品、场景等）、多维度视频内容分析（视觉、字幕、剧情），并输出标准化的剪辑决策信息（时间戳、描述、标签等）。核心功能：支持多种剪辑场景：角色片段提取、高光片段检测、产品片段检测、自定义剪辑等。基于自然语言描述的灵活剪辑需求理解，支持用户自定义需求。支持参考图像辅助识别（角色、物品、场景等）。多维度视频内容分析（视觉、字幕、剧情）。支持 ASR 增强的语义理解，适用于对话内容丰富、无字幕的视频，提升片段边界流畅性。支持短剧三要素渲染（标题、提示语、角标），适合短剧竖屏场景。支持精彩前置功能，自动提取 10-15 秒具有吸引力的片段作为开场。标准化的剪辑决策输出（时间戳、描述、标签等）。自动生成视频片段文件并上传至 TOS。
爆款素材剪辑	在线	爆款素材剪辑算子能够基于多集短剧视频，自动完成分镜检测、语义分析、剪辑决策与视频合成，批量生成多个适合在短视频平台投放的引流素材视频。核心功能：多集短剧批量处理：一次性输入多集短剧，自动完成全部分析与剪辑，批量输出多个爆款素材。智能剪辑方案生成：自动分析剧情内容，生成多种剪辑方案（顺剪/跳剪），满足不同投放需求。非正片内容自动清洗：自动检测并去除定格画面、前后集重复内容等无关画面。分镜级语义理解：对每个镜头进行剧情理解与重要性评级，输出结构化分镜分析结果。剧本还原：自动还原多集短剧的完整剧本，包含角色关系、场景结构与剧情脉络。短剧三要素渲染：支持在素材中添加剧名标题、提示语和角标，适配短剧竖屏场景。精彩前置：支持将高光片段前置到素材开头，快速吸引观众注意力。

视频处理

算子名称	使用方式	算子简介
视频编辑增强版	在线	视频编辑增强版在线服务，基于输入视频和参考图片完成视频内容替换，支持场景替换和物体替换，尽量保留原视频中的主体动作、镜头节奏与时序连续性，输出替换后的视频结果。核心功能：支持 `scene_replace` 场景替换，保持原视频中的人物、商品、动作和镜头结构，替换背景或环境风格。支持 `object_replace` 物体替换，基于参考图片将视频中的目标物体替换为指定样式或商品。支持通过 `user_prompt` 补充自然语言编辑约束，例如保留动作、移除水印、避免字幕或控制风格细节。支持有限次数的自动评估与重试，帮助在复杂素材上获得更稳定的替换结果。支持返回最终视频结果和 `result.json` 诊断文件，便于调用方留存生成结果与过程信息。
视频分辨率调整（在线）	在线	视频分辨率调整算子，核心功能：智能分辨率调整到指定范围内支持多种宽高比保持策略可控制视频质量和编码参数保持音频流不受影响
音视频合并	在线	音视频合并算子，基于 FFmpeg 对输入的视频和音频素材进行顺序拼接、时长调整和最终合成。算子支持 1 对 1、1 对多、多对 1、多对多等多种输入组合；当视频和音频总时长不一致时，会根据配置自动选择变速对齐或按较短时长裁剪，并将结果视频与处理映射文件上传到 TOS。核心功能：支持多段视频顺序拼接。支持多段音频顺序拼接。支持视频、音频分别按目标时长预处理后再合成。支持自动选择对齐策略：优先变速，超出阈值时自动裁剪。支持输出最终视频文件和映射文件，便于追踪每次合并的输入、时长和对齐策略。输出目录自动按账号、请求链路和输入哈希隔离，避免不同任务结果互相覆盖。
视频帧采样	在线	视频抽帧算子支持对输入视频按指定帧率进行抽帧，将抽取的图片帧上传至指定 TOS 存储路径。任务完成后，您可以获取视频元信息以及每一帧的访问地址。算子支持可配置的抽帧频率、最大帧数限制、输出图片格式和缩放策略，适用于视频理解、检测、审核、摘要、封面生成等场景。核心功能：按帧率抽帧：按指定 FPS（0.1 ~ 5.0）对视频进行均匀抽帧。最大帧数限制：可设置 `max_frames` 参数控制输出帧数上限，避免长视频产生过多帧。多格式输出：支持输出 `jpg` 和 `png` 两种图片格式。灵活缩放：支持按短边缩放（`resize_short_side`）或指定目标分辨率（`resize_hw`），满足不同场景需求。自定义输出路径：通过输出路径模板自定义抽帧图片在 TOS 上的存储路径。长视频支持：适合处理长时间视频，可通过 `max_frames` 控制输出规模。
视频超分	在线	视频超分在线服务，基于视频超分模型对输入视频进行清晰度增强与分辨率提升，输出更高分辨率的视频结果。适用于老片修复、素材增强、4K 制作和视频清晰化等场景。核心能力支持通过 `target_width` 指定目标分辨率。支持自动保持视频方向并推导目标分辨率。支持自动保留原视频音频，并自动上传到 TOS。
视频插帧	在线	视频插帧算子用于对输入视频进行升帧处理，通过生成中间帧提升画面流畅度，并输出新的高帧率视频文件。您可以按需指定目标帧率、选择插帧模式，并决定是否保留原始音频流。使用限制输入视频需要可被服务访问，支持 `http/https` 和 `tos://`。 `output_tos_path` 必须是当前账号可写的 TOS 目录。 `target_fps` 必须大于 `0`，且不能小于源视频帧率。当前版本视频时长限制为 `3` 小时，视频大小限制为 `10GB`。算子依赖 CUDA GPU 和视频插帧模型，分辨率越高、目标帧率越高、视频越长，整体耗时越高。
人脸模糊	在线	人脸模糊算子，面向视频内容的自动化人脸模糊处理工具。算子能够自动识别视频中的人脸，并根据用户指定的模糊等级，对人脸进行模糊处理，保护用户隐私。核心能力自动检测视频帧中的人脸并进行模糊处理支持多种模糊类型（马赛克、高斯）支持多种不同区域的精细模糊（如脸部椭圆形模糊、贴脸型模糊、眼部区域模糊等）统一输出模糊后的视频路径（即使未检测到人脸也会重新编码输出）

视频分析

算子名称	使用方式	算子简介
视频分镜	在线	视频分镜算子，基于多模态大模型对输入视频进行镜头/场景切分、全局角色识别、场景级人物关联以及人物图片抽取。算子会输出场景汇总结果、人物注册表、每个场景的切片视频，以及按人物归档的图片文件，便于后续检索、剪辑和内容理解。核心功能：支持基于 VLM 的场景切分，也支持 `min_segment_duration == max_segment_duration` 时的等时长切分。支持全局角色提取与去重聚合，生成角色注册表。支持场景内人物关联，输出人物在场景中的出现时间区间、关键帧时间点与 bbox 信息。支持自动切出每个场景的独立视频文件。支持为每个角色抽取并筛选代表性图片，按人物归档输出。支持输出 token 用量与 LLM 请求次数，便于评估成本。
短剧剧本生成	在线	短剧/电影剧本生成算子是面向短剧以及长视频/电影等连载或超长视频内容的自动化剧本逆向提取工具。算子依托视觉多模态大模型（VLM），能够自动提取全剧/全片角色、分析人物关系，并基于画面与台词逆向生成包含场景、动作、神态及对话等细节的高质量文本剧本和角色表，助力视频内容的二次创作、出海翻译与版权保护。核心功能：角色一致性识别：突破单集、单片段孤立理解的局限，能够在长篇连载或超长电影中稳定追踪核心角色。在面临换装、侧脸或复杂场景切换时，保障跨集人物身份与设定的高度一致，最终构建完整的全局角色表。高保真剧本逆向还原：结合视频画面与对白台词，逆向输出专业级分镜剧本（电影模式下带有精确时间戳）。精细还原场景布置、人物情绪、肢体动作以及关键对白，提供可以直接投入二次开发或翻译校对的高质量文本底稿。双模式自适应架构：短剧模式：支持批量传入多集短剧列表，严格按照输入顺序处理，保持连载剧情的连贯性与角色一致性。电影模式：针对单集数小时的电影或长录像，自动启动长视频自适应处理策略，有效缓解大模型长上下文带来的细节遗忘问题。灵活的输出格式定制：提供开放的自定义指令（Prompt）接口。您可以根据具体的业务要求（如：侧重心理描写、特定的分镜排版格式、特定的文本标记等）自由调整单集剧本的生成样式，满足不同下游业务的直接对接需求。便捷的结果交付：支持将生成的角色表与全集剧本直接安全地写入您指定的云端存储（TOS），也可生成打包好的预签名下载链接。

视频修复

算子名称	使用方式	算子简介
视频修复	在线	视频智能修复算子，基于多模态大模型实现视频水印和字幕智能擦除能力。支持自动检测和擦除视频中的水印、字幕、滚动字幕等不需要的内容，输出修复后的视频文件。核心功能：支持多种目标擦除：水印、字幕、滚动字幕等。基于多模态大模型的智能检测，精准定位需要修复的区域。支持精确 mask 生成，保留边缘细节。支持视频分段处理，处理长视频更稳定。自动处理音频保留，无需额外操作。支持输出 TOS 地址，结果自动上传。
字幕擦除	在线	字幕擦除算子，自动检测并擦除视频画面中的内嵌硬字幕，输出擦除后的视频文件。适合面向竖屏白色字幕的视频进行字幕擦除，提供高效、经济的字幕擦除方案，适用于对成本和速度有较高要求的通用场景。核心能力：智能自动检测画面内嵌字幕区域并擦除。面向竖屏白色字幕场景优化，处理效率高、成本低。异步任务处理，提交后通过轮询获取结果。输出擦除后的视频文件及视频时长。
字幕擦除精细版	在线	字幕擦除精细版算子，自动检测并擦除视频画面中的内嵌硬字幕，输出擦除后的视频文件。适合面向竖屏白色字幕的视频进行字幕擦除，相比标准版擦除后的效果更好，不会留下比较明显的模糊，能精准重建背景纹理、更大程度地还原视频原始画面，适用于短剧出海、专业二创等对画质要求极高的场景。核心能力智能自动检测画面内嵌字幕区域并擦除。支持指定区域擦除：可通过比例坐标精确指定需要擦除的区域。高质量无痕擦除，细节保留更完整，不会留下明显模糊，画质更高。支持 `Subtitle` / `Text` 两种擦除模式，覆盖字幕及画面文字场景。支持 `Quality` / `Size` 两种输出编码策略，兼顾画质与文件体积。异步任务处理，提交后通过轮询获取结果。

视频理解

算子名称	使用方式	算子简介
视频精细理解	在线	LAS 视频精细理解 API 面向各类视频内容，提供多维度、精细化的结构化理解。无论是短视频、电影片段还是长时会议录像，用户上传视频即可获得可搜索、可问答的内容数据和精细摘要。核心功能全局精细理解：支持小时级（最大支持3h、10G）视频，生成连贯时间线与章节总结。事件与行为识别：精准检测关键事件、人物动作、场景变化和逻辑关系。视频问答：基于视频内容的自然语言问答，快速定位答案及时间戳。高效摘要与标签：自动生成章节摘要、主题标签和人物关系，便于知识管理。结构化输出：提供 JSON 格式 timeline、事件列表，方便二次处理或知识库构建。

视频翻译

算子名称	使用方式	算子简介
视频翻译	在线	视频翻译算子，可高效、精准地将视频内容从源语言转换为一种或多种目标语言，服务范围不仅包含字幕翻译，还涉及语音翻译，最终输出配音后的视频以及相应语言的字幕文件。核心功能：多语种支持：支持多种语言的翻译，输入语言支持25种语言的视频输入，输出语言支持31种语言的音频配音，涵盖中文、英语、日语、印尼语、西班牙语、葡萄牙语、韩语、法语、德语等多种常见语言。依托大模型强大的翻译能力，可实现极高的翻译准确率与术语本地化能力，满足全球化内容传播的需求。音色复刻：能够精准提取视频中说话人的声音，实现对说话人声音特质1:1还原。同时，翻译后的语音能够与原始视频的时长精准对齐，确保视频的流畅性和一致性。便捷的结果交付：支持将翻译后字幕、配音后人声音频与视频直接安全地写入您指定的云端存储（TOS），同时生成预签名下载链接。

音频

音频处理

算子名称	使用方式	算子简介
音频格式转换（在线）	在线	”音频格式转换“算子。音频格式转换用于将音频或视频文件统一转换为指定的音频格式，并输出到指定的存储路径。该算子主要用于数据处理流水线中的音频格式标准化、视频抽音频、训练数据准备等场景，支持批量并发处理与可配置的音频编码参数核心功能音频 / 视频统一转换为音频支持自定义输出音频格式支持自定义输出路径（TOS）支持音频编码参数扩展批量并发处理能力
音频切分	在线	”音频切分“算子，用于从音频或视频文件中提取音频，并按照指定规则将音频切分为多个片段，输出到用户指定的存储路径。该算子主要用于长音频或视频的结构化处理场景，如音频预处理、数据切分、训练数据构建等，支持批量并发处理以及灵活的输出路径组织方式。核心功能音频/视频提取与切分支持自定义切分规则支持自定义输出音频格式支持输出路径模板支持音频编码参数扩展

音频识别

算子名称	使用方式	算子简介
语音转文字(豆包语音ASR)	在线	语音转文字（豆包系列）算子，为语音识别模块，基于 LAS ASR 服务的录音转写解决方案。核心功能接入火山引擎LAS ASR接口支持自动断句、数字规整、说话人或通道分离（可选）并发处理多个音频文件，提供结构化 JSON 与可读文本两种输出适合转写最长2小时的录音文件，支持标点补全、智能断句、说话人分离等高级功能。
语音转文字(Doubao-录音文件识别)增强版	在线	LAS语音转文字(Doubao-录音文件识别)增强版算子基于豆包录音文件识别大模型，能够将输入音频/视频文件中的语音，转写为文本输出。支持多种音/视频格式、多语种、音频降噪及大文件处理，适用于内容质检审核、音视频字幕生成、语音搜索、课堂内容分析等场景。核心功能多格式音频/视频输入识别：除音频外，新增支持视频文件输入，las算子可自动提取视频音轨进行识别。除raw/wav/mp3/ogg外，扩展支持mp4/mov/mkv/flac等容器格式。 las算子对于输入的音视频文件无文件大小/时长限制。除公网https url访问外，也支持tos内网路径访问(tos://bucket-name/路径名/文件名)。音频前处理增强，提升模型效果：内置音频降噪模块，可有效降低背景噪声对识别的影响，提升录音文件转写的准确率。多语种支持：可自动识别语种或按用户指定语言进行识别。扩充识别语种至 99 种，满足多语种、多区域的音频数据处理需求。

图片

图片处理

算子名称	使用方式	算子简介
图片重采样	在线	图像重采样算子用于对输入图像进行尺寸重采样（仅支持降采样），并将结果保存到用户指定的 TOS 目录。支持 4 种插值算法（nearest/bilinear/bicubic/lanczos）与 `.jpg` / `.png` 输出格式，适用于图像预处理、数据标准化、离线数据集构建等场景。核心功能多种插值算法 nearest：速度最快，适合像素风格图像 bilinear：速度与质量平衡 bicubic：更平滑的高质量缩放 lanczos：抗锯齿效果更好，适合照片 URL / TOS 输入支持 `image_src_type=image_url`：输入公网 URL `image_src_type=image_tos`：输入 `tos://` 地址输出到 TOS `tos_dir` 必填，指定输出目录（文件夹级别）输出文件名由服务端生成（可通过 `image_name` 辅助命名），并追加 `_resample` 后缀标识输出格式与 DPI 控制输出格式支持 `.jpg` / `.png` 支持设置输出 DPI（`target_dpi`）

文档

文档解析

算子名称	使用方式	算子简介
PDF 文档解析（豆包）	在线	PDF 内容解析算子，支持对 PDF 文件进行视觉模型解析与 Markdown 结构化输出。核心功能支持 PDF 页面渲染与视觉模型解析，输出高保真 Markdown，完整还原原文结构（标题层级、表格、公式、图片区域）。自动识别图片区域并返回 boundingbox 信息及图片预签名 URL。支持逐页和整书 Markdown 汇总，便于后续内容处理和展示。

方舟大模型系列

视觉理解

算子名称	使用方式	算子简介
视频内容理解（豆包系列）增强版	在线	视频内容理解算子，支持对视频文件使用豆包模型进行理解，包括视频内容的解析与自然语言描述生成。将视频压缩到50M以内，再使用豆包模型进行视频理解；支持视频格式：mp4、wmv、webm、mkv、m4v、flv、avi、mov，因视频文件格式变种较多，不能保证所有文件都能被识别，请通过测试验证文件能够被正常识别。

视频理解

算子名称	使用方式	算子简介
视频字幕翻译	在线	视频字幕翻译算子，支持从视频中提取字幕并进行多语言翻译。用户可以选择通过 OCR 识别画面内嵌字幕，或通过 ASR 提取音频字幕，再对识别出的字幕进行精修和翻译，输出多种格式的字幕文件。核心功能：双字幕来源：支持 OCR 识别画面内嵌字幕和 ASR 提取音频字幕两种方式。多种精度级别：每种字幕来源均支持低精度和高精度两档配置，满足不同场景需求。多语言翻译：支持 25 种语言的字幕翻译，包括中文、英文、日文、韩文、法文、德文、西班牙文等。多格式输出：支持同时输出多种格式的字幕文件。双语字幕识别：OCR 模式支持识别翻译型双语字幕和对话型双语字幕。

图像生成

算子名称	使用方式	算子简介
图片生成（Seedream 系列模型）	在线	图片生成（ Seedream 系列模型）算子，可根据用户输入的文本或参考图像生成高质量图片，支持组图与流式输出。核心功能文生图/图生图/组图生成支持流式输出（SSE）与非流式输出输出格式支持 url 与 b64_json

视频生成

算子名称	使用方式	算子简介
seedance视频生成（豆包系列）	在线	Seedance是字节跳动豆包大模型团队最新推出的视频生成基础模型，可根据用户输入的文本、图片等内容，快速生成优质的视频片段

多模态向量化

算子名称	使用方式	算子简介
图文 embedding（豆包系列模型）	在线离线	多模态向量生成处理器，支持图像/视频与文本的联合向量生成，实现跨模态检索能力。核心功能多模态向量化支持：支持图像/视频与文本的联合向量生成，实现跨模态检索能力，参考文档。输入格式自适应：原生支持图像/视频的base64编码、二进制数据、URL等输入格式自动处理媒体格式转换（JPEG/PNG/MP4/AVI等）

多模态深度思考

算子名称	使用方式	算子简介
多模态深度思考（Doubao-seed-2.0）	在线	多模态场景下提供大模型的深度思考能力，使用具备深度思考能力的模型，对图片、视频或文本进行分析理解，并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构，用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。核心功能深度思考机制：模型在回答问题前自动进行问题拆解和逻辑推理，生成思维链（reasoning_content）多模态场景支持：同时支持图片 / 视频 / 文本输入，自动完成多模态消息拼装输入简化机制：支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源，通过简单配置即可实现视觉理解能力灵活思考模式：支持通过 thinking_type 参数控制深度思考模式（enabled / disabled / auto），在回答质量与性能之间灵活权衡
多模态深度思考（Doubao-seed-1.8）	在线

最近更新时间：2026.06.17 10:03:30

这个页面对您有帮助吗？

有用

有用

无用

无用