多模态深度思考（Doubao-seed-2.0）--AI 数据湖服务-火山引擎

文档中心

AI 数据湖服务

多模态深度思考

多模态深度思考（Doubao-seed-2.0）

算子介绍

描述

多模态场景下提供大模型的深度思考能力，使用具备深度思考能力的模型，对图片、视频、音频(仅doubao-seed-2-0-mini-260428/仅doubao-seed-2-0-lite-260428支持)或文本进行分析理解，并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构，用户只需按约定提供图片 / 视频 / 音频 / 文本数据即可完成推理。

核心功能

深度思考机制：模型在回答问题前自动进行问题拆解和逻辑推理，生成思维链（reasoning_content）
多模态场景支持：同时支持图片 / 视频 / 音频 / 文本输入，自动完成多模态消息拼装
输入简化机制：支持本地文件、HTTP/HTTPS URL、TOS/S3 对象存储等多种数据源，通过简单配置即可实现视觉理解能力
灵活思考模式：支持通过 thinking_type 参数控制深度思考模式（enabled / disabled / auto），在回答质量与性能之间灵活权衡

输入输出规范

输入格式：

输入类型	格式说明
图片（images）/ 视频（videos）/ 音频（audios）	支持 string 或 list 形式，支持的数据来源类型： url：网络资源地址，支持 http/https/tos/s3，TOS/S3 会自动生成预签名 URL base64：Base64 编码数据 binary：二进制数据（内部会转换为 Base64 编码）
文本（texts）	支持 string 或 list 形式，作为用户提示词输入

输入类型

格式说明

图片（images）/
视频（videos）/
音频（audios）

支持 string 或 list 形式，支持的数据来源类型：

url：网络资源地址，支持 http/https/tos/s3，TOS/S3 会自动生成预签名 URL
base64：Base64 编码数据
binary：二进制数据（内部会转换为 Base64 编码）

文本（texts）

支持 string 或 list 形式，作为用户提示词输入

注意

同一个字段中不允许同时混用字符串和列表两种类型。

输出格式：
- 默认模式：返回 struct 类型，包含以下字段：
  - llm_result：模型最终回答内容
  - reasoning_content：模型的思维链 / 推理过程
- 当设置环境变量 LAS_LLM_FINISH_REASON_CHECK=true 时，struct 中会额外包含：
  - finish_reason：模型结果结束原因，取值范围包括：
    - stop：正常终止
    - length：超出 token 限制
    - content_filter：命中内容过滤策略
- 当设置环境变量 LAS_LLM_BOTS_REFERENCES=true 时，struct 中会额外包含：
  - references：模型引用的检索结果或外部知识信息，便于下游透传与解析

模型能力增强

思维链可视化：通过 reasoning_content 字段输出模型的推理过程，便于观测与复盘
结果可靠性控制：通过 finish_reason 字段识别异常终止情况，例如长度截断或内容过滤
多模态理解：支持图片 / 视频 / 音频 / 文本的混合输入解析，适用于复杂多模态场景

注意与前提

细分项	注意与前提
开通 LAS	如果您是一个全新的火山引擎用户，此前未开通过 LAS 产品，您可先开通 LAS，不使用 LAS 的计费功能仅开通 LAS 产品不会产生费用。开通操作请参见准备工作。开通完成后可查看算子介绍文档，了解算子能力、上手引导等，详情可参见：LAS 智能数据处理算子。
费用	调用算子前，您需先了解使用算子时的模型调用费用，详情请参见大模型调用计费。
鉴权（API Key）	调用算子前，您需要先生成算子调用的API Key，并建议将API Key配置为环境变量，便于更安全地调用算子，详情请参见获取 API Key 并配置。
BaseURL	调用算子前，您需要先根据您当前使用的LAS服务所在地域，了解算子调用的BaseURL，用于配置算子调用路径参数取值。详情请参见获取 Base URL，下文中的调用示例仅作为参考，实际调用时需替换为您对应地域的路径取值。

Rest API 调用

Chat

接口说明

通过Chat接口调用 doubao-seed-2.0 模型进行多模态理解。
支持的模型和版本：

doubao-seed-2-0-pro-260215
doubao-seed-2-0-lite-260215
doubao-seed-2-0-mini-260215
doubao-seed-2-0-mini-260428
doubao-seed-2-0-lite-260428

请求参数

参数	类型	必填	示例值	说明
model	string	是	doubao-seed-2-0-pro-260215	模型名称和版本，`模型名称-版本`。支持 doubao-seed-2-0-pro-260215, doubao-seed-2-0-lite-260215, doubao-seed-2-0-mini-260215, doubao-seed-2-0-mini-260428, doubao-seed-2-0-lite-260428
messages	list of chat_message	是		到目前为止的对话组成的消息列表。不同模型支持不同类型的消息，如文本、图片、视频等。该字段使用方式，请参考对话（Chat）API请求体里的messages参数。
max_tokens	integer	否	10000	取值范围：各模型不同，详细见模型列表。模型回答最大长度（单位：token）。模型回答不包含思维链内容。`模型回答 = 模型输出 - 模型思维链（如有）`。输出 token 的总长度还受模型的上下文长度限制。
max_completion_tokens	integer	否	10000	支持该字段的模型及使用说明见文档。取值范围：[0, 64k]。控制模型输出的最大长度（包括模型回答和模型思维链内容长度，单位 token）。配置了该参数后，可以让模型输出超长内容，max_tokens （默认值 4k）失效，模型按需输出内容（回答和思维链），直到达到 max_completion_tokens 配置的值。不可与 max_tokens 字段同时设置，会直接报错。
stop	list of string	否		默认值为null。模型遇到 stop 字段所指定的字符串时将停止继续生成，这个词语本身不会输出。最多支持 4 个字符串。深度思考能力模型不支持该字段。
frequency_penalty	float	否	1.0	取值范围为 [-2.0, 2.0]。频率惩罚系数。如果值为正，会根据新 token 在文本中的出现频率对其进行惩罚，从而降低模型逐字重复的可能性。
presence_penalty	float	否	1.0	取值范围为 [-2.0, 2.0]。存在惩罚系数。如果值为正，会根据新 token 到目前为止是否出现在文本中对其进行惩罚，从而增加模型谈论新主题的可能性。
temperature	float	否	1	取值范围为 [0, 2]。采样温度。控制了生成文本时对每个候选词的概率分布进行平滑的程度。当取值为 0 时模型仅考虑对数概率最大的一个 token。较高的值（如 0.8）会使输出更加随机，而较低的值（如 0.2）会使输出更加集中确定。通常建议仅调整 temperature 或 top_p 其中之一，不建议两者都修改。
top_p	float	否	0.5	取值范围为 [0, 1]。核采样概率阈值。模型会考虑概率质量在 top_p 内的 token 结果。当取值为 0 时模型仅考虑对数概率最大的一个 token。0.1 意味着只考虑概率质量最高的前 10% 的 token，取值越大生成的随机性越高，取值越低生成的确定性越高。通常建议仅调整 temperature 或 top_p 其中之一，不建议两者都修改。
thinking	request_thinking	否		控制模型是否开启深度思考模式。默认开启深度思考模式，可以手动关闭。该字段使用方式，请参考对话（Chat）API请求体里的thinking参数。
response_format	request_response_format	否		模型输出内容须遵循此处指定的格式。该字段使用方式，请参考对话（Chat）API请求体里的response_format参数。
tools	list of chat_tool	否		待调用工具的列表，模型返回信息中可包含。当您需要让模型返回待调用工具时，需要配置该结构体。该字段使用方式，请参考对话（Chat）API请求体里的tools参数。
tool_choice	string or object	否		仅 doubao-seed-1-6-* 及之后系代模型支持此字段。本次请求，模型返回信息中是否有待调用的工具。当没有指定工具时，none 是默认值。如果存在工具，则 auto 是默认值。工具选择模式 string none ：模型返回信息中不可含有待调用的工具。 required ：模型返回信息中必须含待调用的工具。选择此项时请确认存在适合的工具，以减少模型产生幻觉的情况。 auto ：模型自行判断返回信息是否有待调用的工具。工具调用 object** 指定待调用工具的范围。模型返回信息中，只允许包含以下模型信息。选择此项时请确认该工具适合用户需求，以减少模型产生幻觉的情况。tool_choice.name 指定待调用工具的名称，tool_choice.type指定调用的类型。

返回数据

参数名称	数据类型	示例值	参数说明
id	string	0217426318107460cfa43dc3f3683b1de1c09624ff49085a457ac	本次请求的唯一标识。
model	string	-	本次请求实际使用的模型名称和版本。
created	integer	-	本次请求创建时间的 Unix 时间戳（秒）。
object	string	chat.completion	固定为 chat.completion。
choices	list of choice	-	本次请求的模型输出内容。
index	integer	0	当前元素在 choices 列表的索引。
finish_reason	string	stop	模型停止生成 token 的原因。取值范围： stop: 模型输出自然结束，或因命中请求参数 stop 中指定的字段而被截断。 length: 模型输出因达到模型输出限制而被截断，有以下原因: 触发 max_tokens 限制（回答内容的长度限制）。触发 max_completion_tokens 限制（思维链内容+回答内容的长度限制）。触发 context_window 限制（输入内容+思维链内容+回答内容的长度限制）。 content_filter: 模型输出被内容审核拦截。 tool_calls: 模型调用了工具。
message	message	-	模型输出的内容。
role	string	assistant	内容输出的角色，此处固定为 assistant。
content	string	-	模型生成的消息内容。
reasoning_content	string	-	模型处理问题的思维链内容。仅深度推理模型支持返回此字段。
tool_calls	list of tool_call	-	模型生成的工具调用。
id	string	assistant	内容输出的角色，此处固定为 assistant。
type	string	function	工具类型，当前仅支持 function。
function	function	function	模型调用的函数。
name	string	-	模型调用的函数的名称。
arguments	string	-	模型生成的用于调用函数的参数，JSON 格式。模型并不总是生成有效的 JSON，并且可能会虚构出一些您的函数参数规范中未定义的参数。在调用函数之前，请在您的代码中验证这些参数是否有效。
logprobs	logprobs	-	当前内容的对数概率信息。
content	list of lpb_content	-	message列表中每个 content 元素中的 token 对数概率信息。
token	string	-	当前 token。
bytes	list of integer	-	当前 token 的 UTF-8 值，格式为整数列表。当一个字符由多个 token 组成（表情符号或特殊字符等）时可以用于字符的编码和解码。如果 token 没有 UTF-8 值则为空。
logprob	float	-	当前 token 的对数概率。
top_logprobs	list of top_logprobs	-	在当前 token 位置最有可能的标记及其对数概率的列表。在一些情况下，返回的数量可能比请求参数 top_logprobs 指定的数量要少。
token	string	-	当前 token。
bytes	list of integer	-	当前 token 的 UTF-8 值，格式为整数列表。当一个字符由多个 token 组成（表情符号或特殊字符等）时可以用于字符的编码和解码。如果 token 没有 UTF-8 值则为空。
logprob	float	-	当前 token 的对数概率。
moderation_hit_type	string	-	模型输出文字含有敏感信息时，会返回模型输出文字命中的风险分类标签。返回值及含义： severe_violation: 模型输出文字涉及严重违规。 violence: 模型输出文字涉及激进行为。
usage	usage	-	本次请求的 token 用量。
total_tokens	integer	10000	本次请求消耗的总 token 数量（输入 + 输出）。
prompt_tokens	integer	1000	输入给模型处理的内容 token 数量。
prompt_tokens_details	prompt_tokens_details	-	输入给模型处理的内容 token 数量的细节。
cached_tokens	integer	100	缓存输入内容的 token 用量，此处应为 0。
audio_tokens	integer	100	音频输入内容所消耗的 token 数量。
audio_cached_tokens	integer	100	缓存音频输入内容的 token 用量，此处应为 0。
completion_tokens	integer	9000	模型输出内容花费的 token。
completion_tokens_details	completion_tokens_details	-	模型输出内容花费的 token 的细节。
reasoning_tokens	integer	200	输出思维链内容花费的 token 数。

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/chat/completions" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "video_url",
                    "video_url": {
                        "url": "https://las-ai-cn-beijing.tos-cn-beijing.volces.com/*****/sample.mp4"
                    }
                },
                {
                    "type": "text",
                    "text": "视频里面有什么"
                }
            ]
        }
    ],
    "model": "doubao-seed-2-0-pro-260215"
}'

返回示例

{
  "model": "doubao-seed-2-0-pro-260215",
  "usage": {
    "prompt_tokens": 3877,
    "completion_tokens": 493,
    "total_tokens": 4370,
    "prompt_tokens_details": {
      "cached_tokens": 0,
      "audio_tokens": null,
      "audio_cached_tokens": null
    },
    "completion_tokens_details": {
      "reasoning_tokens": 354,
      "provisioned_tokens": null
    }
  },
  "created": 1772692173,
  "id": "0217726921599114f28f9638b6effb5ab036b3eddba1d5642ea3d",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "logprobs": null,
      "message": {
        "content": "视频展现的是海边惬意的户外场景：\n1. 核心内容：一位戴着浅米色宽檐帽、黑色墨镜的女士，穿着白色上衣+印花彩色半身裙，靠在白色建筑的墙角，坐在折叠椅上手风琴演奏，演奏时还伴随哼唱，状态十分放松。她的脚边放着一瓶饮用水，背景是蓝色的海面和远处的低矮岸线。\n2. 画面变化：过程中镜头逐渐向女士推近，能越来越清晰看到她演奏的细节和神态；后半段还有穿绿短袖、浅色长裤的路人从她旁边经过。\n整体氛围闲适，充满海滨区域的松弛感。",
        "reasoning_content": "\n用户现在需要描述视频里的内容对吧，首先先梳理场景：首先是户外，靠海的地方，有个白色建筑的墙角对吧？然后主角是个女士，戴着浅色宽檐帽，白上衣，花裙子，墨镜，坐在折叠椅上，正在拉手风琴，旁边地上放着瓶装水，背景是海和远处的岸。然后过程里她一边拉一边还在唱，镜头慢慢往她那边推近对吧？然后后面有路人经过，比如穿绿短袖浅色裤子的人从旁边走过，还有其他路人？哦对，整体氛围很悠闲，是海边的街头演奏那种感觉对吧？\n等下整理清楚：\n首先整体场景：这是在海边的户外，靠近一处白色建筑的墙角，地面是石质地，背景能看到蓝色的海面和远处的低矮陆地，天气晴朗。\n然后核心人物：一位女士坐在黑色折叠椅上，她戴着浅米色宽檐帽、黑色墨镜，穿白色上衣、印着花卉图案的彩色半身裙，脚上是黑色凉鞋，正演奏着手风琴，演奏的过程中她还在跟着哼唱，状态很放松悠闲。她脚边放着一瓶透明的饮用水，旁边还有琴盒类的黑色箱子。\n然后镜头变化：视频过程中镜头逐渐向这位演奏的女士推近，到后半段能清晰看到她演奏的细节和神态。\n最后还有小细节：视频后半段有路人从她旁边的建筑旁走过，比如一位穿薄荷绿短袖、浅卡其色长裤的女士从旁边经过。\n整个氛围很闲适，充满海边小镇的惬意感。\n对，这样说清楚就可以了。",
        "role": "assistant"
      }
    }
  ],
  "object": "chat.completion"
}

错误码

HttpStatusCode	错误码	错误信息	描述
400	Model.InvalidName	The model name is invalid.	模型名称不合法
401	Authorization.Missing	Missing Authorization.	缺少鉴权
401	ApiKey.Invalid	The api key is invalid.	API不合法

Responses

接口说明

通过Responses接口调用 doubao-seed-2.0 模型进行多模态理解。接口定义参考创建模型响应。
支持的模型和版本：

doubao-seed-2-0-pro-260215
doubao-seed-2-0-lite-260215
doubao-seed-2-0-mini-260215
doubao-seed-2-0-mini-260428
doubao-seed-2-0-lite-260428

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/responses" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '{
    "input": [
        {
            "role": "user",
            "content": [
                {
                    "type": "input_video",
                    "video_url": "https://las-ai-cn-beijing.tos-cn-beijing.volces.com/*****/sample.mp4"
                },
                {
                    "type": "input_text",
                    "text": "视频里面有什么"
                }
            ]
        }
    ],
    "model": "doubao-seed-2-0-pro-260215"
}'

返回示例

{
        "created_at": 1772617764,
        "error": null,
        "id": "resp_021772617762470960a4483e1c6480e5dcf931407efe2bda06a32",
        "incomplete_details": null,
        "max_output_tokens": 32768,
        "model": "doubao-seed-2-0-pro-260215",
        "object": "response",
        "output": [
                {
                        "type": "reasoning",
                        "id": "rs_02177261776458300000000000000000000ffffac1504e228c011",
                        "summary": [
                                {
                                        "type": "summary_text",
                                        "text": "用户现在需要分析视频内容，先看画面：一位戴着浅色宽边帽、墨镜，穿白色上衣和花裙子的女士，坐在白色建筑旁的折叠椅上，演奏手风琴，同时还在唱歌。背景是海边，有蓝色的水域和远处的陆地。视频里还有其他元素：她旁边有水瓶，后来有行人（穿绿上衣、卡其裤的人，还有另一个人）从她旁边走过。整个场景是户外海边，女士专注地演奏手风琴并演唱，动作包括按手风琴的键、推拉风箱，头部随着音乐摆动。现在整理这些元素，清晰描述出来。"
                                }
                        ],
                        "status": "completed"
                },
                {
                        "type": "message",
                        "id": "msg_02177261776828500000000000000000000ffffac1504e2a4e276",
                        "role": "assistant",
                        "content": [
                                {
                                        "type": "output_text",
                                        "text": "视频里呈现的内容有：\n1. 人物与行为：一位戴着浅色宽边遮阳帽、墨镜，身穿白色上衣+花卉图案长裙的女士，坐在白色建筑旁的折叠椅上，一边演奏手风琴（手部按动琴键、推拉风箱），一边开口演唱，头部也会随着音乐律动；后期有两位行人（一位穿湖绿色上衣+卡其色下装、一位穿白色上衣）从她身旁路过。\n2. 环境与物品：场景是户外海边区域，背景能看到蓝色的水域与远处的绿植陆地；女士身旁地面放着一瓶矿泉水，她身后有打开的箱子。",
                                        "annotations": null
                                }
                        ],
                        "status": "completed",
                        "partial": null
                }
        ],
        "previous_response_id": null,
        "thinking": null,
        "reasoning": null,
        "service_tier": "default",
        "status": "completed",
        "temperature": null,
        "tools": null,
        "top_p": null,
        "usage": {
                "input_tokens": 3930,
                "output_tokens": 276,
                "total_tokens": 4206,
                "input_tokens_details": {
          "cached_tokens": 0,
          "audio_tokens": null,
          "audio_cached_tokens": null
                },
                "output_tokens_details": {
                        "reasoning_tokens": 137
                },
                "tool_usage": null,
                "tool_usage_details": null
        },
        "caching": {
                "type": "disabled",
                "prefix": null
        },
        "text": null,
        "instructions": null,
        "store": true,
        "expire_at": 1772876962,
        "tool_choice": null,
        "parallel_tool_calls": null,
        "max_tool_calls": null
}

最近更新时间：2026.06.12 18:24:20

这个页面对您有帮助吗？

有用

无用

AI 数据湖服务

描述 #

核心功能 #

输入输出规范 #

模型能力增强 #

Chat #

接口说明 #

请求参数 #

返回数据 #

示例 #

请求示例

返回示例

错误码 #

Responses #

接口说明 #

示例 #

请求示例

返回示例

描述

核心功能

输入输出规范

模型能力增强

Chat

接口说明

请求参数

返回数据

示例

错误码

Responses

接口说明

示例