火山引擎 LAS 为您提供多种在线算子,您可以使用灵活调用对应算子的API进行数据处理。本文为您介绍当前支持的在线算子列表,您可单击对应算子名称的链接,查看各个算子的详细 API 调用说明。
视频
视频剪辑
算子名称 | 使用方式 | 算子简介 |
|---|
视频智能剪辑 | | - 视频智能剪辑算子,基于多模态大模型实现视频智能剪辑能力,帮助用户从长视频中快速提取有价值的内容片段。支持自然语言描述的剪辑需求理解、参考图像辅助识别(角色、物品、场景等)、多维度视频内容分析(视觉、字幕、剧情),并输出标准化的剪辑决策信息(时间戳、描述、标签等)。
- 核心功能:
- 支持多种剪辑场景:角色片段提取、高光片段检测、产品片段检测、自定义剪辑等。
- 基于自然语言描述的灵活剪辑需求理解,支持用户自定义需求。
- 支持参考图像辅助识别(角色、物品、场景等)。
- 多维度视频内容分析(视觉、字幕、剧情)。
- 支持 ASR 增强的语义理解,适用于对话内容丰富、无字幕的视频,提升片段边界流畅性。
- 支持短剧三要素渲染(标题、提示语、角标),适合短剧竖屏场景。
- 支持精彩前置功能,自动提取 10-15 秒具有吸引力的片段作为开场。
- 标准化的剪辑决策输出(时间戳、描述、标签等)。
- 自动生成视频片段文件并上传至 TOS。
|
爆款素材剪辑 | | - 爆款素材剪辑算子能够基于多集短剧视频,自动完成分镜检测、语义分析、剪辑决策与视频合成,批量生成多个适合在短视频平台投放的引流素材视频。
- 核心功能:
- 多集短剧批量处理:一次性输入多集短剧,自动完成全部分析与剪辑,批量输出多个爆款素材。
- 智能剪辑方案生成:自动分析剧情内容,生成多种剪辑方案(顺剪/跳剪),满足不同投放需求。
- 非正片内容自动清洗:自动检测并去除定格画面、前后集重复内容等无关画面。
- 分镜级语义理解:对每个镜头进行剧情理解与重要性评级,输出结构化分镜分析结果。
- 剧本还原:自动还原多集短剧的完整剧本,包含角色关系、场景结构与剧情脉络。
- 短剧三要素渲染:支持在素材中添加剧名标题、提示语和角标,适配短剧竖屏场景。
- 精彩前置:支持将高光片段前置到素材开头,快速吸引观众注意力。
|
视频处理
算子名称 | 使用方式 | 算子简介 |
|---|
视频编辑增强版 | | - 视频编辑增强版在线服务,基于输入视频和参考图片完成视频内容替换,支持场景替换和物体替换,尽量保留原视频中的主体动作、镜头节奏与时序连续性,输出替换后的视频结果。
- 核心功能:
- 支持
scene_replace 场景替换,保持原视频中的人物、商品、动作和镜头结构,替换背景或环境风格。 - 支持
object_replace 物体替换,基于参考图片将视频中的目标物体替换为指定样式或商品。 - 支持通过
user_prompt 补充自然语言编辑约束,例如保留动作、移除水印、避免字幕或控制风格细节。 - 支持有限次数的自动评估与重试,帮助在复杂素材上获得更稳定的替换结果。
- 支持返回最终视频结果和
result.json 诊断文件,便于调用方留存生成结果与过程信息。
|
视频分辨率调整(在线) | | 视频分辨率调整算子,核心功能: - 智能分辨率调整到指定范围内
- 支持多种宽高比保持策略
- 可控制视频质量和编码参数
- 保持音频流不受影响
|
音视频合并 | | - 音视频合并算子,基于 FFmpeg 对输入的视频和音频素材进行顺序拼接、时长调整和最终合成。算子支持 1 对 1、1 对多、多对 1、多对多等多种输入组合;当视频和音频总时长不一致时,会根据配置自动选择变速对齐或按较短时长裁剪,并将结果视频与处理映射文件上传到 TOS。
- 核心功能:
- 支持多段视频顺序拼接。
- 支持多段音频顺序拼接。
- 支持视频、音频分别按目标时长预处理后再合成。
- 支持自动选择对齐策略:优先变速,超出阈值时自动裁剪。
- 支持输出最终视频文件和映射文件,便于追踪每次合并的输入、时长和对齐策略。
- 输出目录自动按账号、请求链路和输入哈希隔离,避免不同任务结果互相覆盖。
|
视频帧采样 | | - 视频抽帧算子支持对输入视频按指定帧率进行抽帧,将抽取的图片帧上传至指定 TOS 存储路径。任务完成后,您可以获取视频元信息以及每一帧的访问地址。算子支持可配置的抽帧频率、最大帧数限制、输出图片格式和缩放策略,适用于视频理解、检测、审核、摘要、封面生成等场景。
- 核心功能:
- 按帧率抽帧:按指定 FPS(0.1 ~ 5.0)对视频进行均匀抽帧。
- 最大帧数限制:可设置
max_frames 参数控制输出帧数上限,避免长视频产生过多帧。 - 多格式输出:支持输出
jpg 和 png 两种图片格式。 - 灵活缩放:支持按短边缩放(
resize_short_side)或指定目标分辨率(resize_hw),满足不同场景需求。 - 自定义输出路径:通过输出路径模板自定义抽帧图片在 TOS 上的存储路径。
- 长视频支持:适合处理长时间视频,可通过
max_frames 控制输出规模。
|
视频超分 | | - 视频超分在线服务,基于视频超分模型对输入视频进行清晰度增强与分辨率提升,输出更高分辨率的视频结果。适用于老片修复、素材增强、4K 制作和视频清晰化等场景。
- 核心能力
- 支持通过
target_width 指定目标分辨率。 - 支持自动保持视频方向并推导目标分辨率。
- 支持自动保留原视频音频,并自动上传到 TOS。
|
视频插帧 | | - 视频插帧算子用于对输入视频进行升帧处理,通过生成中间帧提升画面流畅度,并输出新的高帧率视频文件。您可以按需指定目标帧率、选择插帧模式,并决定是否保留原始音频流。
- 使用限制
- 输入视频需要可被服务访问,支持
http/https 和 tos://。 output_tos_path 必须是当前账号可写的 TOS 目录。target_fps 必须大于 0,且不能小于源视频帧率。- 当前版本视频时长限制为
3 小时,视频大小限制为 10GB。 - 算子依赖 CUDA GPU 和视频插帧模型,分辨率越高、目标帧率越高、视频越长,整体耗时越高。
|
人脸模糊 | | - 人脸模糊算子,面向视频内容的自动化人脸模糊处理工具。算子能够自动识别视频中的人脸,并根据用户指定的模糊等级,对人脸进行模糊处理,保护用户隐私。
- 核心能力
- 自动检测视频帧中的人脸并进行模糊处理
- 支持多种模糊类型(马赛克、高斯)
- 支持多种不同区域的精细模糊(如脸部椭圆形模糊、贴脸型模糊、眼部区域模糊等)
- 统一输出模糊后的视频路径(即使未检测到人脸也会重新编码输出)
|
视频分析
算子名称 | 使用方式 | 算子简介 |
|---|
视频分镜 | | - 视频分镜算子,基于多模态大模型对输入视频进行镜头/场景切分、全局角色识别、场景级人物关联以及人物图片抽取。算子会输出场景汇总结果、人物注册表、每个场景的切片视频,以及按人物归档的图片文件,便于后续检索、剪辑和内容理解。
- 核心功能:
- 支持基于 VLM 的场景切分,也支持
min_segment_duration == max_segment_duration 时的等时长切分。 - 支持全局角色提取与去重聚合,生成角色注册表。
- 支持场景内人物关联,输出人物在场景中的出现时间区间、关键帧时间点与 bbox 信息。
- 支持自动切出每个场景的独立视频文件。
- 支持为每个角色抽取并筛选代表性图片,按人物归档输出。
- 支持输出 token 用量与 LLM 请求次数,便于评估成本。
|
短剧剧本生成 | | - 短剧/电影剧本生成算子是面向短剧以及长视频/电影等连载或超长视频内容的自动化剧本逆向提取工具。算子依托视觉多模态大模型(VLM),能够自动提取全剧/全片角色、分析人物关系,并基于画面与台词逆向生成包含场景、动作、神态及对话等细节的高质量文本剧本和角色表,助力视频内容的二次创作、出海翻译与版权保护。
- 核心功能:
- 角色一致性识别:突破单集、单片段孤立理解的局限,能够在长篇连载或超长电影中稳定追踪核心角色。在面临换装、侧脸或复杂场景切换时,保障跨集人物身份与设定的高度一致,最终构建完整的全局角色表。
- 高保真剧本逆向还原:结合视频画面与对白台词,逆向输出专业级分镜剧本(电影模式下带有精确时间戳)。精细还原场景布置、人物情绪、肢体动作以及关键对白,提供可以直接投入二次开发或翻译校对的高质量文本底稿。
- 双模式自适应架构:
- 短剧模式:支持批量传入多集短剧列表,严格按照输入顺序处理,保持连载剧情的连贯性与角色一致性。
- 电影模式:针对单集数小时的电影或长录像,自动启动长视频自适应处理策略,有效缓解大模型长上下文带来的细节遗忘问题。
- 灵活的输出格式定制:提供开放的自定义指令(Prompt)接口。您可以根据具体的业务要求(如:侧重心理描写、特定的分镜排版格式、特定的文本标记等)自由调整单集剧本的生成样式,满足不同下游业务的直接对接需求。
- 便捷的结果交付:支持将生成的角色表与全集剧本直接安全地写入您指定的云端存储(TOS),也可生成打包好的预签名下载链接。
|
视频修复
算子名称 | 使用方式 | 算子简介 |
|---|
视频修复 | | - 视频智能修复算子,基于多模态大模型实现视频水印和字幕智能擦除能力。支持自动检测和擦除视频中的水印、字幕、滚动字幕等不需要的内容,输出修复后的视频文件。
- 核心功能:
- 支持多种目标擦除:水印、字幕、滚动字幕等。
- 基于多模态大模型的智能检测,精准定位需要修复的区域。
- 支持精确 mask 生成,保留边缘细节。
- 支持视频分段处理,处理长视频更稳定。
- 自动处理音频保留,无需额外操作。
- 支持输出 TOS 地址,结果自动上传。
|
字幕擦除 | | - 字幕擦除算子,自动检测并擦除视频画面中的内嵌硬字幕,输出擦除后的视频文件。适合面向竖屏白色字幕的视频进行字幕擦除,提供高效、经济的字幕擦除方案,适用于对成本和速度有较高要求的通用场景。
- 核心能力:
- 智能自动检测画面内嵌字幕区域并擦除。
- 面向竖屏白色字幕场景优化,处理效率高、成本低。
- 异步任务处理,提交后通过轮询获取结果。
- 输出擦除后的视频文件及视频时长。
|
字幕擦除精细版 | | - 字幕擦除精细版算子,自动检测并擦除视频画面中的内嵌硬字幕,输出擦除后的视频文件。适合面向竖屏白色字幕的视频进行字幕擦除,相比标准版擦除后的效果更好,不会留下比较明显的模糊,能精准重建背景纹理、更大程度地还原视频原始画面,适用于短剧出海、专业二创等对画质要求极高的场景。
- 核心能力
- 智能自动检测画面内嵌字幕区域并擦除。
- 支持指定区域擦除:可通过比例坐标精确指定需要擦除的区域。
- 高质量无痕擦除,细节保留更完整,不会留下明显模糊,画质更高。
- 支持
Subtitle / Text 两种擦除模式,覆盖字幕及画面文字场景。 - 支持
Quality / Size 两种输出编码策略,兼顾画质与文件体积。 - 异步任务处理,提交后通过轮询获取结果。
|
视频理解
算子名称 | 使用方式 | 算子简介 |
|---|
视频精细理解 | | - LAS 视频精细理解 API 面向各类视频内容,提供多维度、精细化的结构化理解。无论是短视频、电影片段还是长时会议录像,用户上传视频即可获得可搜索、可问答的内容数据和精细摘要。
- 核心功能
- 全局精细理解:支持小时级(最大支持3h、10G)视频,生成连贯时间线与章节总结。
- 事件与行为识别:精准检测关键事件、人物动作、场景变化和逻辑关系。
- 视频问答:基于视频内容的自然语言问答,快速定位答案及时间戳。
- 高效摘要与标签:自动生成章节摘要、主题标签和人物关系,便于知识管理。
- 结构化输出:提供 JSON 格式 timeline、事件列表,方便二次处理或知识库构建。
|
视频翻译
算子名称 | 使用方式 | 算子简介 |
|---|
视频翻译 | | - 视频翻译算子,可高效、精准地将视频内容从源语言转换为一种或多种目标语言,服务范围不仅包含字幕翻译,还涉及语音翻译,最终输出配音后的视频以及相应语言的字幕文件。
- 核心功能:
- 多语种支持:支持多种语言的翻译,输入语言支持25种语言的视频输入,输出语言支持31种语言的音频配音,涵盖中文、英语、日语、印尼语、西班牙语、葡萄牙语、韩语、法语、德语等多种常见语言。依托大模型强大的翻译能力,可实现极高的翻译准确率与术语本地化能力,满足全球化内容传播的需求。
- 音色复刻:能够精准提取视频中说话人的声音,实现对说话人声音特质1:1还原。同时,翻译后的语音能够与原始视频的时长精准对齐,确保视频的流畅性和一致性。
- 便捷的结果交付:支持将翻译后字幕、配音后人声音频与视频直接安全地写入您指定的云端存储(TOS),同时生成预签名下载链接。
|
音频
音频处理
算子名称 | 使用方式 | 算子简介 |
|---|
音频格式转换(在线) | | - ”音频格式转换“算子。音频格式转换用于将音频或视频文件统一转换为指定的音频格式,并输出到指定的存储路径。
- 该算子主要用于数据处理流水线中的音频格式标准化、视频抽音频、训练数据准备等场景,支持批量并发处理与可配置的音频编码参数
- 核心功能
- 音频 / 视频统一转换为音频
- 支持自定义输出音频格式
- 支持自定义输出路径(TOS)
- 支持音频编码参数扩展
- 批量并发处理能力
|
音频切分 | | - ”音频切分“算子,用于从音频或视频文件中提取音频,并按照指定规则将音频切分为多个片段,输出到用户指定的存储路径。
该算子主要用于长音频或视频的结构化处理场景,如音频预处理、数据切分、训练数据构建等,支持批量并发处理以及灵活的输出路径组织方式。 - 核心功能
- 音频/视频提取与切分
- 支持自定义切分规则
- 支持自定义输出音频格式
- 支持输出路径模板
- 支持音频编码参数扩展
|
音频识别
算子名称 | 使用方式 | 算子简介 |
|---|
语音转文字(豆包语音ASR) | | - 语音转文字(豆包系列)算子,为语音识别模块,基于 LAS ASR 服务的录音转写解决方案。
- 核心功能
- 接入火山引擎LAS ASR接口
- 支持自动断句、数字规整、说话人或通道分离(可选)
- 并发处理多个音频文件,提供结构化 JSON 与可读文本两种输出
- 适合转写最长2小时的录音文件,支持标点补全、智能断句、说话人分离等高级功能。
|
语音转文字(Doubao-录音文件识别)增强版 | | - LAS语音转文字(Doubao-录音文件识别)增强版算子基于豆包录音文件识别大模型,能够将输入音频/视频文件中的语音,转写为文本输出。支持多种音/视频格式、多语种、音频降噪及大文件处理,适用于内容质检审核、音视频字幕生成、语音搜索、课堂内容分析等场景。
- 核心功能
- 多格式音频/视频输入识别:
- 除音频外,新增支持视频文件输入,las算子可自动提取视频音轨进行识别。
- 除raw/wav/mp3/ogg外,扩展支持mp4/mov/mkv/flac等容器格式。
- las算子对于输入的音视频文件无文件大小/时长限制。
- 除公网https url访问外,也支持tos内网路径访问(tos://bucket-name/路径名/文件名)。
- 音频前处理增强,提升模型效果:
- 内置音频降噪模块,可有效降低背景噪声对识别的影响,提升录音文件转写的准确率。
- 多语种支持:
- 可自动识别语种或按用户指定语言进行识别。
- 扩充识别语种至 99 种,满足多语种、多区域的音频数据处理需求。
|
图片
图片处理
算子名称 | 使用方式 | 算子简介 |
|---|
图片重采样 | | - 图像重采样算子用于对输入图像进行尺寸重采样(仅支持降采样),并将结果保存到用户指定的 TOS 目录。支持 4 种插值算法(nearest/bilinear/bicubic/lanczos)与
.jpg / .png 输出格式,适用于图像预处理、数据标准化、离线数据集构建等场景。 - 核心功能
- 多种插值算法
- nearest:速度最快,适合像素风格图像
- bilinear:速度与质量平衡
- bicubic:更平滑的高质量缩放
- lanczos:抗锯齿效果更好,适合照片
- URL / TOS 输入支持
image_src_type=image_url:输入公网 URLimage_src_type=image_tos:输入 tos:// 地址
- 输出到 TOS
tos_dir 必填,指定输出目录(文件夹级别)- 输出文件名由服务端生成(可通过
image_name 辅助命名),并追加 _resample 后缀标识
- 输出格式与 DPI 控制
- 输出格式支持
.jpg / .png - 支持设置输出 DPI(
target_dpi)
|
文档
文档解析
算子名称 | 使用方式 | 算子简介 |
|---|
PDF 文档解析(豆包) | | - PDF 内容解析算子,支持对 PDF 文件进行视觉模型解析与 Markdown 结构化输出。
- 核心功能
- 支持 PDF 页面渲染与视觉模型解析,输出高保真 Markdown,完整还原原文结构(标题层级、表格、公式、图片区域)。
- 自动识别图片区域并返回 boundingbox 信息及图片预签名 URL。
- 支持逐页和整书 Markdown 汇总,便于后续内容处理和展示。
|
方舟大模型系列
视觉理解
算子名称 | 使用方式 | 算子简介 |
|---|
视频内容理解(豆包系列)增强版 | | - 视频内容理解算子,支持对视频文件使用豆包模型进行理解,包括视频内容的解析与自然语言描述生成。
- 将视频压缩到50M以内,再使用豆包模型进行视频理解;
- 支持视频格式:mp4、wmv、webm、mkv、m4v、flv、avi、mov,因视频文件格式变种较多,不能保证所有文件都能被识别,请通过测试验证文件能够被正常识别。
|
视频理解
算子名称 | 使用方式 | 算子简介 |
|---|
视频字幕翻译 | | - 视频字幕翻译算子,支持从视频中提取字幕并进行多语言翻译。用户可以选择通过 OCR 识别画面内嵌字幕,或通过 ASR 提取音频字幕,再对识别出的字幕进行精修和翻译,输出多种格式的字幕文件。
- 核心功能:
- 双字幕来源:支持 OCR 识别画面内嵌字幕和 ASR 提取音频字幕两种方式。
- 多种精度级别:每种字幕来源均支持低精度和高精度两档配置,满足不同场景需求。
- 多语言翻译:支持 25 种语言的字幕翻译,包括中文、英文、日文、韩文、法文、德文、西班牙文等。
- 多格式输出:支持同时输出多种格式的字幕文件。
- 双语字幕识别:OCR 模式支持识别翻译型双语字幕和对话型双语字幕。
|
图像生成
算子名称 | 使用方式 | 算子简介 |
|---|
图片生成(Seedream 系列模型) | | - 图片生成( Seedream 系列模型)算子,可根据用户输入的文本或参考图像生成高质量图片,支持组图与流式输出。
- 核心功能
- 文生图/图生图/组图生成
- 支持流式输出(SSE)与非流式输出
- 输出格式支持 url 与 b64_json
|
视频生成
算子名称 | 使用方式 | 算子简介 |
|---|
seedance视频生成(豆包系列) | | Seedance是字节跳动豆包大模型团队最新推出的视频生成基础模型,可根据用户输入的文本、图片等内容,快速生成优质的视频片段 |
多模态向量化
算子名称 | 使用方式 | 算子简介 |
|---|
图文 embedding(豆包系列模型) | | - 多模态向量生成处理器,支持图像/视频与文本的联合向量生成,实现跨模态检索能力。
- 核心功能
- 多模态向量化支持:支持图像/视频与文本的联合向量生成,实现跨模态检索能力,参考文档。
- 输入格式自适应:
- 原生支持图像/视频的base64编码、二进制数据、URL等输入格式
- 自动处理媒体格式转换(JPEG/PNG/MP4/AVI等)
|
多模态深度思考
算子名称 | 使用方式 | 算子简介 |
|---|
多模态深度思考(Doubao-seed-2.0) | | - 多模态场景下提供大模型的深度思考能力,使用具备深度思考能力的模型,对图片、视频或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 文本数据即可完成推理。
- 核心功能
- 深度思考机制:模型在回答问题前自动进行问题拆解和逻辑推理,生成思维链(reasoning_content)
- 多模态场景支持:同时支持图片 / 视频 / 文本输入,自动完成多模态消息拼装
- 输入简化机制:支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源,通过简单配置即可实现视觉理解能力
- 灵活思考模式:支持通过 thinking_type 参数控制深度思考模式(enabled / disabled / auto),在回答质量与性能之间灵活权衡
|
多模态深度思考(Doubao-seed-1.8) | |