视频精细理解--AI 数据湖服务-火山引擎

文档中心

AI 数据湖服务

视频理解

视频精细理解

算子介绍

描述

视频精细理解算子面向通用视频内容，支持直接对视频进行理解与分析。无论是短视频、影视片段、课程录屏还是监控录像，用户上传视频并给出 query 或 task_template 后，即可对视频内容进行描述、问答、信息提取，并结合时间戳定位相关片段。支持小时级（最大支持 3h、10G）视频输入，也支持结合画面、语音、音效等信息进行音视频联合理解，适用于检索、问答和内容分析等场景。

核心功能

全局精细理解：支持小时级（最大支持 3h、10G）视频，可生成连贯时间线、章节总结等内容。
音视频联合理解：支持结合视频画面、语音、背景音和音效进行综合分析，适用于需要同时关注视觉和听觉线索的场景。
事件与行为识别：精准检测关键事件、人物动作、场景变化和逻辑关系。
视频问答：基于视频内容的自然语言问答，快速定位答案及时间戳。
高效摘要与标签：可生成章节摘要、主题标签和人物关系等内容，便于知识管理。
结构化输出：支持输出时间线、事件列表等内容，方便二次处理或知识库构建。

适用场景

场景类型	考察能力	示例问题
体育比赛	角色追踪、战术识别、跨片段总结、高光生成	"总结球员本场所有得分时刻及方式"
电视剧	高光生成、时序推理、情绪轨迹分析、角色关系梳理	"梳理本集中男女主角关系变化的三个关键片段"
教育公开课	章节拆解、要点摘要、跨片段问答、Slide OCR	"将演讲按议程拆分为章节并生成要点"
测评类	参数抽取、屏幕OCR、情绪分析	"总结手机评测的三个优点和两个缺点"
教程类	操作步骤拆解、风险提示识别、检索索引	"分解PS教程为操作指南并关联时间戳"
监控交通类	事件检测、违规识别、车牌OCR、目标追踪	"检测视频中违规停车车辆及车牌"

支持的任务

跨片段问答：整合多clip信息回答复杂问题；
高光生成：提取关键片段（情感高潮、剧情转折等）；
角色追踪：持续锁定目标实体并分析其行为；
章节拆解：按逻辑拆分长视频为章节；
音视频综合分析：结合画面变化、语音内容和音效线索输出综合理解结果；
金句抽取：提取视频中的核心观点或精彩台词。

计费说明

计费标准

细分项	计费标准说明
计费项	包括4个计费项：模型输入、模型输出、缓存存储、缓存命中。需支付的费用为所有计费项的计费之和。
计费类型	按量计费，单位：`元/百万 Tokens`，按实际的计费用量每小时出账。
单价	各计费项的单价以调用模型时，基于模型输入长度进行阶梯定价，处于不同输入长度的梯度范围内的单价不同。

计费详情
计费公式：总费用 = 模型输入费用 + 模型输出费用 + 缓存存储费用 + 缓存命中费用

模型类型	条件（千 token）	输入（非音频）元/百万token	输入（音频）元/百万token	缓存存储元/百万token/小时	缓存命中(非音频) 元/百万token	缓存命中(音频) 元/百万token	输出元/百万token
doubao-seed-2.0-pro	输入长度 [0, 32]	6.4	不涉及	0.034	1.28	不涉及	32
	输入长度 (32, 128]	9.6	不涉及	0.034	1.92	不涉及	48
	输入长度 (128, 256]	19.2	不涉及	0.034	3.84	不涉及	96
doubao-seed-2.0-lite	输入长度 [0, 32]	1.2	18	0.034	0.24	3.6	7.2
	输入长度 (32, 128]	1.8	27	0.034	0.36	5.4	10.8
	输入长度 (128, 256]	3.6	54	0.034	0.72	10.8	21.6
doubao-seed-2.0-mini	输入长度 [0, 32]	0.4	6	0.034	0.08	1.2	4
	输入长度 (32, 128]	0.8	12	0.034	0.16	2.4	8
	输入长度 (128, 256]	1.6	24	0.034	0.32	4.8	16
doubao-seed-1.8	输入长度 [0, 32]	1.6	不涉及	0.034	0.32	不涉及	16
	输入长度 (32, 128]	2.4	不涉及	0.034	0.32	不涉及	32
	输入长度 (128, 256]	4.8	不涉及	0.034	0.32	不涉及	48

计费预估
- 基于上述计费详情表格，您可预估输入的视频大约为多少 Token，结合算子请求代码预估大约多少 Token，作为整体模型输入长度的预估。
- 注意：此预估结果并不能作为准确的输入长度数据，仅作为参考，实际进行任务处理时，还会有系统 Prompt 等其他输入，但其他输入的长度一般不会很长。

注意与前提

细分项	注意与前提
开通 LAS	如果您是一个全新的火山引擎用户，此前未开通过 LAS 产品，您可先开通 LAS，不使用 LAS 的计费功能仅开通 LAS 产品不会产生费用。开通操作请参见准备工作。开通完成后可查看算子介绍文档，了解算子能力、上手引导等，详情可参见：LAS 智能数据处理算子。
费用	调用算子前，您需先了解使用算子时的模型调用费用，详情请参见大模型调用计费。
鉴权（API Key）	调用算子前，您需要先生成算子调用的API Key，并建议将API Key配置为环境变量，便于更安全地调用算子，详情请参见获取 API Key 并配置。
BaseURL	调用算子前，您需要先根据您当前使用的LAS服务所在地域，了解算子调用的BaseURL，用于配置算子调用路径参数取值。详情请参见获取 Base URL，下文中的调用示例仅作为参考，实际调用时需替换为您对应地域的路径取值。

API 调用

Submit

接口说明

调用 las_long_video_understand 算子进行视频精细理解。最小可用请求可传入 video_url 和 query，
也可传入 video_url和 task_template，其余字段可根据任务复杂度和分析需求按需配置。

请求参数

参数	类型	是否必填	示例值	描述
operator_id	string	是	las_long_video_understand	算子 ID
operator_version	string	是	v1	算子版本
data	long_video_understand	是		算子参数
video_url	string	是	https://example.com/video.mp4	待分析视频的可访问地址。支持http/https、火山 TOS（tos://bucket/key）等。请确保服务端可拉取该资源，建议使用稳定、可直接下载的文件链接。
query	string	否	请按时间顺序总结视频中的关键进球，并标注球员号码与时间点	对视频的分析目标或问题描述。未传入 `task_template` 时必填；建议尽量明确输出目标和结果组织方式，问题越具体，结果通常越稳定。
task_template	string	否	general_video_captioning	任务模板。传入后可自动补齐任务所需默认配置；使用模板时只需传入video_url 和 task_template。支持： general_video_captioning：用于生成一段连续、详细、非结构化的中文视频级描述。 dense_video_captioning：用于生成带事件和动作/场景时间切分的细粒度结构化 JSON 描述。 video_audio_understanding：用于结合视频画面、语音、音效等音视频信息生成综合理解结果。 embodied_active_object_detection：面向具身操作场景，识别视频中的主要交互物品。 embodied_action_captioning：面向具身操作场景，生成动作时序标注结果。
task_context	object	否		任务模板结构化上下文，用于向模板补充文本信息。当前支持 prompt_context 字段，用于补充任务上下文先验信息；当前仅支持 task_template 为 embodied_action_captioning。
prompt_context	string	否	主要交互物品：黄色图钉、浅绿色便签。	用于补充任务上下文先验信息。
start	float	否	30.0	视频分析开始时间，单位为秒。
end	float	否	120.0	视频分析结束时间，单位为秒。
fps	float	否	1.0	视频抽帧帧率，影响分析粒度与处理时延。默认 1.0，取值会被自动限制在 [0.1, 30.0]。一般场景使用默认值即可；当任务需要识别快速动作或更细粒度事件时，可尝试适当提高取值。
media_resolution	string	否	medium	视频处理分辨率档位，影响视觉细节保留程度与处理时延。默认 medium，支持：low、medium、high。一般场景使用默认值即可；当任务对字幕、小目标、球衣号码等视觉细节的识别要求较高时，可尝试使用更高档位。
model_name	string	否	doubao-seed-2-0-lite-260215	指定视频理解模型。默认 doubao-seed-2-0-lite-260215。若无特殊需求，建议使用默认值。支持： Seed 1.8： doubao-seed-1-8-251228 Seed 2.0 Mini： doubao-seed-2-0-mini-260215、 doubao-seed-2-0-mini-260428 Seed 2.0 Lite： doubao-seed-2-0-lite-260215、 doubao-seed-2-0-lite-260428 Seed 2.0 Pro： doubao-seed-2-0-pro-260215 使用 Seed 2.0 Mini、Seed 2.0 Lite 模型时，仅 260428 版本支持音频理解。
reasoning_effort	string	否	minimal	控制模型推理强度。默认 minimal，表示关闭深度思考。常见取值：minimal、low、medium、high。一般场景使用默认值即可；当任务涉及跨片段归纳、复杂因果关系或多角色分析时，可尝试使用更高档位。
clip_context	string	否	medium	控制单个视频分片的上下文范围。默认medium，支持：medium、long。一般场景使用默认值即可；当任务更依赖上下文连续性时，可尝试使用更高档位long。
use_responses_api	boolean	否	false	是否启用Responses API能力。启用后可缓存视频内容，缓存有效期为 1 小时，适合同一视频的重复分析请求。
previous_response_ids	list of string	否	["cache_resp_test"]	传入上一轮响应返回的响应标识符列表后，可复用已缓存的视频内容，仅在 use_responses_api=true 时生效。

返回参数

参数	类型	示例值	描述
metadata	object		请求元信息
task_id	string	task-xxx	异步模式下的任务 ID，用于作业状态查询。
task_status	string	PENDING	异步模式下的任务状态。 PENDING, 提交任务排队 RUNNING, 正在运行 COMPLETED, 已经完成 FAILED, 失败 TIMEOUT, 超时
business_code	string	0	业务码。提交成功时通常返回 0 。
error_msg	string		如有异常，会返回详细的异常信息。

场景	推荐参数
通用摘要、基础问答	使用默认参数即可
体育比赛、动作细节分析	可适当提高 `fps`；对球衣号码、小目标等细节识别要求较高时，可尝试 `media_resolution=high`
会议纪要、课程拆解、剧情梳理	可尝试 `clip_context=long`；当任务涉及复杂归纳时，可进一步尝试提高 `reasoning_effort`
同一视频重复分析、复用已缓存视频	`use_responses_api=true`，并传入 `previous_response_ids`；视频缓存有效期为 1 小时

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/submit" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "operator_id": "las_long_video_understand",
    "operator_version": "v1",
    "data": {
      "video_url": "https://example.com/video.mp4",
      "task_template": "general_video_captioning"  
    }
}'

返回示例

{
  "metadata": {
    "task_id": "task-20251125163544-abc123",
    "task_status": "PENDING",
    "business_code": "200",
    "error_msg": ""
  }
}

Poll

接口说明

查询视频理解任务的执行状态和结果。

请求参数

名称	类型	是否必选	示例值	描述
operator_id	string	是	las_long_video_understand	算子 ID
operator_version	string	是	v1	算子版本
task_id	string	是	task-xxx	任务 ID

返回数据

参数	类型	示例值	描述
metadata	metadata		请求元信息
task_id	string	task-xxx	异步模式下的任务 ID。
task_status	string	COMPLETED	异步模式下的任务状态。 PENDING, 提交任务排队 RUNNING, 正在运行 COMPLETED, 已经完成 FAILED, 失败 TIMEOUT, 超时异步任务通常需要结合 `task_status=COMPLETED` 与 `business_code=0` 判断任务已真正完成。
business_code	string	0	业务码。业务处理成功时通常返回 `0`。
error_msg	string		如有异常，会返回详细的异常信息。
data	long_video_understand_result		返回的数据
token_usages	list of token_usage_info	[{"model_name":"doubao-seed-2-0-lite-260215","token_usage":{"prompt_tokens":4453444,"completion_tokens":10929}}]	token 使用情况
model_name	string	"doubao-seed-2-0-lite-260215"	模型名称
token_usage	object	{"prompt_tokens": 4453444, "completion_tokens": 10929, "cached_tokens": 10032, "cached_store_tokens": 10032, "total_tokens": 4464373}	Token 使用量
video_duration	float	847.296	原始视频时长
resolution	string	1920x1080	原始视频分辨率
final_summary	string	视频整体讲述了...	最终总结
response_ids	list of string	["cache_resp_test"]	开启 Responses API 后返回的响应标识符列表，可在后续 Submit 请求中通过 `previous_response_ids` 传入，以复用已缓存的视频内容

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/poll" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "operator_id": "las_long_video_understand",
    "operator_version": "v1",
    "task_id": "task-20251125163544-abc123"
}'

返回示例

{
  "metadata": {
    "task_id": "task-20251125163544-abc123",
    "task_status": "COMPLETED",
    "business_code": "0",
    "error_msg": ""
  },
  "data": {
    "token_usages": [
      {
        "model_name": "doubao-seed-2-0-lite-260215",
        "token_usage": {
          "prompt_tokens": 4453444,
          "completion_tokens": 10929,
          "cached_tokens": 2612,
          "cached_store_tokens": 2612,
          "total_tokens": 4464373
        }
      }
    ],
    "video_duration": 847.296,
    "resolution": "1920x1080",
    "final_summary": "视频整体讲述了...",
    "response_ids": ["cache_resp_test"]
  }
}

错误码

HttpCode	错误码	错误信息	说明
400	Model.InvalidName	The model name is invalid.	模型名称不合法
401	Authorization.Missing	Missing Authorization.	缺少鉴权
401	ApiKey.Invalid	The api key is invalid.	API不合法

最近更新时间：2026.06.12 18:32:10

这个页面对您有帮助吗？

有用

无用

AI 数据湖服务

描述 #

核心功能 #

适用场景 #

支持的任务 #

Submit #

接口说明 #

请求参数 #

返回参数 #

推荐配置 #

示例 #

请求示例

返回示例

Poll #

接口说明 #

请求参数 #

返回数据 #

示例 #

请求示例

返回示例

错误码 #

描述

核心功能

适用场景

支持的任务

Submit

接口说明

请求参数

返回参数

推荐配置

示例

Poll

接口说明

请求参数

返回数据

示例

错误码