You need to enable JavaScript to run this app.
文档中心
AI 数据湖服务

AI 数据湖服务

复制全文
下载 pdf
视频理解
视频精细理解
复制全文
下载 pdf
视频精细理解

算子介绍

描述

视频精细理解算子面向通用视频内容,支持直接对视频进行理解与分析。无论是短视频、影视片段、课程录屏还是监控录像,用户上传视频并给出 query 或 task_template 后,即可对视频内容进行描述、问答、信息提取,并结合时间戳定位相关片段。支持小时级(最大支持 3h、10G)视频输入,也支持结合画面、语音、音效等信息进行音视频联合理解,适用于检索、问答和内容分析等场景。

核心功能

  • 全局精细理解:支持小时级(最大支持 3h、10G)视频,可生成连贯时间线、章节总结等内容。
  • 音视频联合理解:支持结合视频画面、语音、背景音和音效进行综合分析,适用于需要同时关注视觉和听觉线索的场景。
  • 事件与行为识别:精准检测关键事件、人物动作、场景变化和逻辑关系。
  • 视频问答:基于视频内容的自然语言问答,快速定位答案及时间戳。
  • 高效摘要与标签:可生成章节摘要、主题标签和人物关系等内容,便于知识管理。
  • 结构化输出:支持输出时间线、事件列表等内容,方便二次处理或知识库构建。

适用场景

场景类型

考察能力

示例问题

体育比赛

角色追踪、战术识别、跨片段总结、高光生成

"总结球员本场所有得分时刻及方式"

电视剧

高光生成、时序推理、情绪轨迹分析、角色关系梳理

"梳理本集中男女主角关系变化的三个关键片段"

教育公开课

章节拆解、要点摘要、跨片段问答、Slide OCR

"将演讲按议程拆分为章节并生成要点"

测评类

参数抽取、屏幕OCR、情绪分析

"总结手机评测的三个优点和两个缺点"

教程类

操作步骤拆解、风险提示识别、检索索引

"分解PS教程为操作指南并关联时间戳"

监控交通类

事件检测、违规识别、车牌OCR、目标追踪

"检测视频中违规停车车辆及车牌"

支持的任务

  • 跨片段问答:整合多clip信息回答复杂问题;
  • 高光生成:提取关键片段(情感高潮、剧情转折等);
  • 角色追踪:持续锁定目标实体并分析其行为;
  • 章节拆解:按逻辑拆分长视频为章节;
  • 音视频综合分析:结合画面变化、语音内容和音效线索输出综合理解结果;
  • 金句抽取:提取视频中的核心观点或精彩台词。

计费说明
  • 计费标准

    细分项
    计费标准说明

    计费项

    包括4个计费项:模型输入、模型输出、缓存存储、缓存命中。需支付的费用为所有计费项的计费之和。

    计费类型

    按量计费,单位:元/百万 Tokens,按实际的计费用量每小时出账。

    单价

    各计费项的单价以调用模型时,基于模型输入长度进行阶梯定价,处于不同输入长度的梯度范围内的单价不同。

  • 计费详情
    计费公式:总费用 = 模型输入费用 + 模型输出费用 + 缓存存储费用 + 缓存命中费用

    模型类型
    条件
    (千 token)
    输入(非音频)
    元/百万token
    输入(音频)
    元/百万token
    缓存存储
    元/百万token/小时
    缓存命中(非音频)
    元/百万token
    缓存命中(音频)
    元/百万token
    输出
    元/百万token

    doubao-seed-2.0-pro

    输入长度 [0, 32]

    6.4

    不涉及

    0.034

    1.28

    不涉及

    32

    输入长度 (32, 128]

    9.6

    不涉及

    0.034

    1.92

    不涉及

    48

    输入长度 (128, 256]

    19.2

    不涉及

    0.034

    3.84

    不涉及

    96

    doubao-seed-2.0-lite

    输入长度 [0, 32]

    1.2

    18

    0.034

    0.24

    3.6

    7.2

    输入长度 (32, 128]

    1.8

    27

    0.034

    0.36

    5.4

    10.8

    输入长度 (128, 256]

    3.6

    54

    0.034

    0.72

    10.8

    21.6

    doubao-seed-2.0-mini

    输入长度 [0, 32]

    0.4

    6

    0.034

    0.08

    1.2

    4

    输入长度 (32, 128]

    0.8

    12

    0.034

    0.16

    2.4

    8

    输入长度 (128, 256]

    1.6

    24

    0.034

    0.32

    4.8

    16

    doubao-seed-1.8

    输入长度 [0, 32]

    1.6

    不涉及

    0.034

    0.32

    不涉及

    16

    输入长度 (32, 128]

    2.4

    不涉及

    0.034

    0.32

    不涉及

    32

    输入长度 (128, 256]

    4.8

    不涉及

    0.034

    0.32

    不涉及

    48

  • 计费预估

    • 基于上述计费详情表格,您可预估输入的视频大约为多少 Token,结合算子请求代码预估大约多少 Token,作为整体模型输入长度的预估。
    • 注意:此预估结果并不能作为准确的输入长度数据,仅作为参考,实际进行任务处理时,还会有系统 Prompt 等其他输入,但其他输入的长度一般不会很长。

注意与前提

细分项

注意与前提

开通 LAS

  • 如果您是一个全新的火山引擎用户,此前未开通过 LAS 产品,您可先开通 LAS,不使用 LAS 的计费功能仅开通 LAS 产品不会产生费用。开通操作请参见准备工作
  • 开通完成后可查看算子介绍文档,了解算子能力、上手引导等,详情可参见:LAS 智能数据处理算子

费用

调用算子前,您需先了解使用算子时的模型调用费用,详情请参见大模型调用计费

鉴权(API Key)

调用算子前,您需要先生成算子调用的API Key,并建议将API Key配置为环境变量,便于更安全地调用算子,详情请参见获取 API Key 并配置

BaseURL

调用算子前,您需要先根据您当前使用的LAS服务所在地域,了解算子调用的BaseURL,用于配置算子调用路径参数取值。
详情请参见获取 Base URL,下文中的调用示例仅作为参考,实际调用时需替换为您对应地域的路径取值。

API 调用

Submit

接口说明

调用 las_long_video_understand 算子进行视频精细理解。最小可用请求可传入 video_urlquery
也可传入 video_urltask_template,其余字段可根据任务复杂度和分析需求按需配置。

请求参数

参数
类型
是否必填
示例值
描述
operator_id
string
las_long_video_understand
算子 ID
operator_version
string
v1
算子版本
data
long_video_understand
算子参数
video_url
string
https://example.com/video.mp4
待分析视频的可访问地址。支持http/https、火山 TOS(tos://bucket/key)等。请确保服务端可拉取该资源,建议使用稳定、可直接下载的文件链接。
query
string
请按时间顺序总结视频中的关键进球,并标注球员号码与时间点
对视频的分析目标或问题描述。未传入 `task_template` 时必填;建议尽量明确输出目标和结果组织方式,问题越具体,结果通常越稳定。
task_template
string
general_video_captioning
任务模板。传入后可自动补齐任务所需默认配置;使用模板时只需传入video_url 和 task_template。
支持:
  • general_video_captioning:用于生成一段连续、详细、非结构化的中文视频级描述。
  • dense_video_captioning:用于生成带事件和动作/场景时间切分的细粒度结构化 JSON 描述。
  • video_audio_understanding:用于结合视频画面、语音、音效等音视频信息生成综合理解结果。
  • embodied_active_object_detection:面向具身操作场景,识别视频中的主要交互物品。
  • embodied_action_captioning:面向具身操作场景,生成动作时序标注结果。
task_context
object
任务模板结构化上下文,用于向模板补充文本信息。当前支持 prompt_context 字段,用于补充任务上下文先验信息;当前仅支持 task_template 为 embodied_action_captioning。
prompt_context
string
主要交互物品:黄色图钉、浅绿色便签。
用于补充任务上下文先验信息。
start
float
30.0
视频分析开始时间,单位为秒。
end
float
120.0
视频分析结束时间,单位为秒。
fps
float
1.0
视频抽帧帧率,影响分析粒度与处理时延。默认 1.0,取值会被自动限制在 [0.1, 30.0]。一般场景使用默认值即可;当任务需要识别快速动作或更细粒度事件时,可尝试适当提高取值。
media_resolution
string
medium
视频处理分辨率档位,影响视觉细节保留程度与处理时延。默认 medium,支持:low、medium、high。一般场景使用默认值即可;当任务对字幕、小目标、球衣号码等视觉细节的识别要求较高时,可尝试使用更高档位。
model_name
string
doubao-seed-2-0-lite-260215
指定视频理解模型。默认 doubao-seed-2-0-lite-260215。若无特殊需求,建议使用默认值。
支持:
  • Seed 1.8: doubao-seed-1-8-251228
  • Seed 2.0 Mini: doubao-seed-2-0-mini-260215、 doubao-seed-2-0-mini-260428
  • Seed 2.0 Lite: doubao-seed-2-0-lite-260215、 doubao-seed-2-0-lite-260428
  • Seed 2.0 Pro: doubao-seed-2-0-pro-260215
使用 Seed 2.0 Mini、Seed 2.0 Lite 模型时,仅 260428 版本支持音频理解。
reasoning_effort
string
minimal
控制模型推理强度。默认 minimal,表示 关闭深度思考。常见取值:minimal、low、medium、high。一般场景使用默认值即可;当任务涉及跨片段归纳、复杂因果关系或多角色分析时,可尝试使用更高档位。
clip_context
string
medium
控制单个视频分片的上下文范围。默认medium,支持:medium、long。一般场景使用默认值即可;当任务更依赖上下文连续性时,可尝试使用更高档位long。
use_responses_api
boolean
false
是否启用Responses API能力。启用后可缓存视频内容,缓存有效期为 1 小时,适合同一视频的重复分析请求。
previous_response_ids
list of string
["cache_resp_test"]
传入上一轮响应返回的响应标识符列表后,可复用已缓存的视频内容,仅在 use_responses_api=true 时生效。

返回参数

参数
类型
示例值
描述
metadata
object
请求元信息
task_id
string
task-xxx
异步模式下的任务 ID,用于作业状态查询。
task_status
string
PENDING
异步模式下的任务状态。
  • PENDING, 提交任务排队
  • RUNNING, 正在运行
  • COMPLETED, 已经完成
  • FAILED, 失败
  • TIMEOUT, 超时
business_code
string
0
业务码。提交成功时通常返回 0 。
error_msg
string
如有异常,会返回详细的异常信息。

推荐配置

场景

推荐参数

通用摘要、基础问答

使用默认参数即可

体育比赛、动作细节分析

可适当提高 fps;对球衣号码、小目标等细节识别要求较高时,可尝试 media_resolution=high

会议纪要、课程拆解、剧情梳理

可尝试 clip_context=long;当任务涉及复杂归纳时,可进一步尝试提高 reasoning_effort

同一视频重复分析、复用已缓存视频

use_responses_api=true,并传入 previous_response_ids;视频缓存有效期为 1 小时

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/submit" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "operator_id": "las_long_video_understand",
    "operator_version": "v1",
    "data": {
      "video_url": "https://example.com/video.mp4",
      "task_template": "general_video_captioning"  
    }
}'

返回示例

{
  "metadata": {
    "task_id": "task-20251125163544-abc123",
    "task_status": "PENDING",
    "business_code": "200",
    "error_msg": ""
  }
}

Poll

接口说明

查询视频理解任务的执行状态和结果。

请求参数

名称

类型

是否必选

示例值

描述

operator_id

string

las_long_video_understand

算子 ID

operator_version

string

v1

算子版本

task_id

string

task-xxx

任务 ID

返回数据

参数
类型
示例值
描述
metadata
metadata
请求元信息
task_id
string
task-xxx
异步模式下的任务 ID。
task_status
string
COMPLETED
异步模式下的任务状态。
  • PENDING, 提交任务排队
  • RUNNING, 正在运行
  • COMPLETED, 已经完成
  • FAILED, 失败
  • TIMEOUT, 超时
异步任务通常需要结合 task_status=COMPLETEDbusiness_code=0 判断任务已真正完成。
business_code
string
0
业务码。业务处理成功时通常返回 0
error_msg
string
如有异常,会返回详细的异常信息。
data
long_video_understand_result
返回的数据
token_usages
list of token_usage_info
[{"model_name":"doubao-seed-2-0-lite-260215","token_usage":{"prompt_tokens":4453444,"completion_tokens":10929}}]
token 使用情况
model_name
string
"doubao-seed-2-0-lite-260215"
模型名称
token_usage
object
{"prompt_tokens": 4453444, "completion_tokens": 10929, "cached_tokens": 10032, "cached_store_tokens": 10032, "total_tokens": 4464373}
Token 使用量
video_duration
float
847.296
原始视频时长
resolution
string
1920x1080
原始视频分辨率
final_summary
string
视频整体讲述了...
最终总结
response_ids
list of string
["cache_resp_test"]
开启 Responses API 后返回的响应标识符列表,可在后续 Submit 请求中通过 previous_response_ids 传入,以复用已缓存的视频内容

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/poll" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "operator_id": "las_long_video_understand",
    "operator_version": "v1",
    "task_id": "task-20251125163544-abc123"
}'

返回示例

{
  "metadata": {
    "task_id": "task-20251125163544-abc123",
    "task_status": "COMPLETED",
    "business_code": "0",
    "error_msg": ""
  },
  "data": {
    "token_usages": [
      {
        "model_name": "doubao-seed-2-0-lite-260215",
        "token_usage": {
          "prompt_tokens": 4453444,
          "completion_tokens": 10929,
          "cached_tokens": 2612,
          "cached_store_tokens": 2612,
          "total_tokens": 4464373
        }
      }
    ],
    "video_duration": 847.296,
    "resolution": "1920x1080",
    "final_summary": "视频整体讲述了...",
    "response_ids": ["cache_resp_test"]
  }
}

错误码

HttpCode

错误码

错误信息

说明

400

Model.InvalidName

The model name is invalid.

模型名称不合法

401

Authorization.Missing

Missing Authorization.

缺少鉴权

401

ApiKey.Invalid

The api key is invalid.

API不合法

最近更新时间:2026.06.12 18:32:10
这个页面对您有帮助吗?
有用
有用
无用
无用