视频处理算子用于实现音视频相关的分段、总结以及融合等功能。通过本文您可以了解视频处理模块下所包含的各类算子的能力和使用方式。
企业管理员已为算子配置大模型,详情请参见设置大模型调用。
利用Qwen多模态理解模型,同时理解视频中的画面与语音,进行视频内容总结、分场景/片段打标签。支持调用火山方舟豆包、Qwen 等多款大模型,对视频进行批量化的多模态内容理解。
利用豆包多模态理解模型,同时理解视频中的画面与语音,进行视频内容总结、分场景/片段打标签。
在视频处理场景中,关键帧抽取(提取视频中具有代表性、信息量丰富的帧,如核心画面帧、包含产品的帧)是非结构化视频数据处理的核心环节,广泛用于视频内容分析、AI 训练、内容检索等场景。
利用大模型理解能力,将 ASR 结果与视频理解结果按时间轴进行分段融合。
模块 | 参数 | 配置说明 |
|---|---|---|
模型信息 | 模型选择 | 如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。 |
模型调用地址 | 应用的调用地址 | |
推理接入点 | 一般格式为 | |
API Key | 一般格式为 | |
处理配置 | 输入模式 | 选择输入数据的来源模式。
|
输入字段 | 根据上游算子实际输出字段,选择需要抽取输入的字段。 注意 输入模式选择 file 时,输入字段必须选择 file_ref。 | |
高级设置 | 并发大小 | 设置并发处理的任务数量。 |
超时时间 | 设置任务处理的超时时间,单位为毫秒(ms)。 | |
重试间隔 | 设置任务失败后的自动重试次数。 | |
异常处理 | 配置当任务发生异常时的处理策略。 | |
提示词配置 | 模型提示词 | 用于指定模型生成文本的提示词,默认值为空。用户可直接使用模板或自定义。 |
点击「测试执行」,在「测试执行结果」栏中查看输出结果。
在流程画布中单击视频智能理解-Doubao 算子,并完成以下配置。
模块 | 参数 | 说明 |
|---|---|---|
模型信息 | 模型选择 | 如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。 |
模型调用地址 | 应用的调用地址。 | |
推理接入点 | 一般格式为 | |
API Key | 一般格式为 | |
处理配置 | 输入模式 | 选择视频输入来源模式。
|
输入字段 | 根据上游算子实际输出字段,选择需要抽取输入的字段。 注意 输入模式选择 file 时,输入字段必须选择 file_ref。 | |
高级设置 | 并发大小 | 设置并发处理的任务数量。 |
超时时间 | 设置任务处理的超时时间,单位为毫秒(ms)。 | |
重试次数 | 设置任务失败后的自动重试次数。 | |
重试间隔 | 设置任务失败后每次重试之间的时间间隔。 | |
异常处理 | 配置当任务发生异常时的处理策略。 | |
提示词配置 | 模型提示词 | 用于指定视频理解模型的提示词,可直接使用模板或自定义提示词。
|
输出配置 | 输出字段 | 自定义输出字段。 |
完成算子配置后,算子会自动执行并输出数据预览,您需等待算子执行完毕后查看数据预览结果。
其中:
您也可以点击「测试执行」,在「测试执行结果」栏中查看输出结果。
在 输入配置 区域,您需要指定待处理视频的来源。
配置项 | 说明 |
|---|---|
选择输入类型 | 可选择文件url地址或文件base64位编码。
|
指定视频字段 | 当输入类型为URL时,此项为必填。您需要从视频字段的下拉列表中,选择输入数据里包含视频 URL 的字段。系统将从该字段读取 URL 进行处理。 |
在 抽帧配置 区域,您可以设置视频抽帧(即截图)的具体规则,以控制截取画面的频率和数量。
参数 | 说明 |
|---|---|
抽帧间隔 | 设置截取视频帧的时间间隔,单位为秒,默认值:1。 |
最大帧数 | 设置从视频中截取的最大帧数。默认值:100。 |
输出格式 | 选择输出图片的格式。支持JPG和PNG两种格式。 |
输出尺寸 | 设置输出图片的宽度和高度,单位为像素。如果设置为0 x 0,则输出图片的尺寸将与原视频保持一致 |
S3存储路径:设置文件在 S3 存储中的路径。示例值:frames
URL有效期:设置生成的结果 URL 的有效时间。单位为秒。示例值:604800
点击“高级配置”,可以配置任务执行的并发数和异常处理策略,可配置具体参数如下:
视频处理并发:设置视频处理的并发任务数。该配置为必填项。
上传并发:设置上传的并发任务数。
异常处理:设置处理过程中遇到异常时的处理方式。该配置为必填项。您可以选择以下两种方式:
输出字段:可以自定义输出字段,不支持首位空格,其余均支持,不超过64个字。设置输出结果中包含帧 URL 的字段名称。示例值:frame_urls
点击「测试执行」,在「测试执行结果」栏中查看输出结果。
说明
「音视频信息融合」算子具有两个输入,分别对应音频结果输入和视频的图像结果输入。
在流程画布中单击音视频信息融合算子,并完成以下配置。
页面左侧的连接配置:
参数 | 说明 |
|---|---|
连接方式 | 设置输入的连接方式,支持选择:
|
连接字段 | 设置左右输入的连接字段关系,支持选择:
|
页面右侧的融合配置:
模块 | 参数 | 说明 |
|---|---|---|
模型信息 | 模型选择 | 如果企业管理员已经为算子配置大模型(详情参见上文前提条件),则支持选择大模型。您也可以选择自定义模型,并完成模型相关配置。 |
模型调用地址 | 应用的调用地址。 | |
推理接入点 | 一般格式为 | |
API Key | 一般格式为 | |
融合配置 | ASR结果列 | 设置音频识别结果列。 |
视频理解结果列 | 设置视频的图像结果列。 | |
融合提示词 | 自定义音视频融合提示词,指定融合规则、输出字段格式要求等。 | |
高级设置 | 并发大小 | 设置并发处理的任务数量。 |
超时时间 | 设置任务处理的超时时间,单位为毫秒(ms)。 | |
重试次数 | 设置任务失败后的自动重试次数。 | |
重试间隔 | 设置任务失败后每次重试之间的时间间隔。 | |
异常处理 | 配置当任务发生异常时的处理策略。
| |
输出配置 | 输出字段 | 自定义输出字段。 |
页面右侧的输出字段:在字段列表中选择需要输入的字段,您可以查看各字段的字段名、原始名、类型以及来源。
完成算子配置后,算子会自动执行并输出数据预览,您需等待算子执行完毕后查看数据预览结果。
其中:
您也可以点击「测试执行」,在「测试执行结果」栏中查看输出结果。