多模态场景下提供大模型的深度思考能力,使用具备深度思考能力的模型,对图片、视频、音频(仅doubao-seed-2-0-mini-260428/仅doubao-seed-2-0-lite-260428支持)或文本进行分析理解,并返回结构化文本输出。算子会自动构建符合多模态模型规范的 message 结构,用户只需按约定提供图片 / 视频 / 音频 / 文本数据即可完成推理。
输入格式:
输入类型 | 格式说明 |
|---|---|
图片(images)/ | 支持 string 或 list 形式,支持的数据来源类型:
|
文本(texts) | 支持 string 或 list 形式,作为用户提示词输入 |
注意
同一个字段中不允许同时混用字符串和列表两种类型。
输出格式:
细分项 | 注意与前提 |
|---|---|
开通 LAS |
|
费用 | 调用算子前,您需先了解使用算子时的模型调用费用,详情请参见大模型调用计费。 |
鉴权(API Key) | 调用算子前,您需要先生成算子调用的API Key,并建议将API Key配置为环境变量,便于更安全地调用算子,详情请参见获取 API Key 并配置。 |
BaseURL | 调用算子前,您需要先根据您当前使用的LAS服务所在地域,了解算子调用的BaseURL,用于配置算子调用路径参数取值。 |
通过Chat接口调用 doubao-seed-2.0 模型进行多模态理解。
支持的模型和版本:
参数 | 类型 | 必填 | 示例值 | 说明 |
|---|---|---|---|---|
model | string | 是 | doubao-seed-2-0-pro-260215 | 模型名称和版本, |
messages | list of chat_message | 是 | 到目前为止的对话组成的消息列表。不同模型支持不同类型的消息,如文本、图片、视频等。该字段使用方式,请参考对话(Chat)API请求体里的messages参数。 | |
max_tokens | integer | 否 | 10000 | 取值范围:各模型不同,详细见模型列表。
|
max_completion_tokens | integer | 否 | 10000 |
取值范围:[0, 64k]。 |
stop | list of string | 否 | 默认值为null。
| |
frequency_penalty | float | 否 | 1.0 | 取值范围为 [-2.0, 2.0]。频率惩罚系数。如果值为正,会根据新 token 在文本中的出现频率对其进行惩罚,从而降低模型逐字重复的可能性。 |
presence_penalty | float | 否 | 1.0 | 取值范围为 [-2.0, 2.0]。存在惩罚系数。如果值为正,会根据新 token 到目前为止是否出现在文本中对其进行惩罚,从而增加模型谈论新主题的可能性。 |
temperature | float | 否 | 1 | 取值范围为 [0, 2]。采样温度。控制了生成文本时对每个候选词的概率分布进行平滑的程度。当取值为 0 时模型仅考虑对数概率最大的一个 token。较高的值(如 0.8)会使输出更加随机,而较低的值(如 0.2)会使输出更加集中确定。通常建议仅调整 temperature 或 top_p 其中之一,不建议两者都修改。 |
top_p | float | 否 | 0.5 | 取值范围为 [0, 1]。核采样概率阈值。模型会考虑概率质量在 top_p 内的 token 结果。当取值为 0 时模型仅考虑对数概率最大的一个 token。0.1 意味着只考虑概率质量最高的前 10% 的 token,取值越大生成的随机性越高,取值越低生成的确定性越高。通常建议仅调整 temperature 或 top_p 其中之一,不建议两者都修改。 |
thinking | request_thinking | 否 | 控制模型是否开启深度思考模式。默认开启深度思考模式,可以手动关闭。该字段使用方式,请参考 对话(Chat)API请求体里的thinking参数。 | |
response_format | request_response_format | 否 | 模型输出内容须遵循此处指定的格式。该字段使用方式,请参考对话(Chat)API请求体里的response_format参数。 | |
tools | list of chat_tool | 否 | 待调用工具的列表,模型返回信息中可包含。当您需要让模型返回待调用工具时,需要配置该结构体。该字段使用方式,请参考对话(Chat)API请求体里的tools参数。 | |
tool_choice | string or object | 否 |
本次请求,模型返回信息中是否有待调用的工具。当没有指定工具时,none 是默认值。如果存在工具,则 auto 是默认值。
工具调用 object
|
参数名称 | 数据类型 | 示例值 | 参数说明 |
|---|---|---|---|
id | string | 0217426318107460cfa43dc3f3683b1de1c09624ff49085a457ac | 本次请求的唯一标识。 |
model | string | - | 本次请求实际使用的模型名称和版本。 |
created | integer | - | 本次请求创建时间的 Unix 时间戳(秒)。 |
object | string | chat.completion | 固定为 chat.completion。 |
choices | list of choice | - | 本次请求的模型输出内容。 |
index | integer | 0 | 当前元素在 choices 列表的索引。 |
finish_reason | string | stop | 模型停止生成 token 的原因。取值范围:
|
message | message | - | 模型输出的内容。 |
role | string | assistant | 内容输出的角色,此处固定为 assistant。 |
content | string | - | 模型生成的消息内容。 |
reasoning_content | string | - | 模型处理问题的思维链内容。仅深度推理模型支持返回此字段。 |
tool_calls | list of tool_call | - | 模型生成的工具调用。 |
id | string | assistant | 内容输出的角色,此处固定为 assistant。 |
type | string | function | 工具类型,当前仅支持 function。 |
function | function | function | 模型调用的函数。 |
name | string | - | 模型调用的函数的名称。 |
arguments | string | - | 模型生成的用于调用函数的参数,JSON 格式。 模型并不总是生成有效的 JSON,并且可能会虚构出一些您的函数参数规范中未定义的参数。在调用函数之前,请在您的代码中验证这些参数是否有效。 |
logprobs | logprobs | - | 当前内容的对数概率信息。 |
content | list of lpb_content | - | message列表中每个 content 元素中的 token 对数概率信息。 |
token | string | - | 当前 token。 |
bytes | list of integer | - | 当前 token 的 UTF-8 值,格式为整数列表。当一个字符由多个 token 组成(表情符号或特殊字符等)时可以用于字符的编码和解码。如果 token 没有 UTF-8 值则为空。 |
logprob | float | - | 当前 token 的对数概率。 |
top_logprobs | list of top_logprobs | - | 在当前 token 位置最有可能的标记及其对数概率的列表。在一些情况下,返回的数量可能比请求参数 top_logprobs 指定的数量要少。 |
token | string | - | 当前 token。 |
bytes | list of integer | - | 当前 token 的 UTF-8 值,格式为整数列表。当一个字符由多个 token 组成(表情符号或特殊字符等)时可以用于字符的编码和解码。如果 token 没有 UTF-8 值则为空。 |
logprob | float | - | 当前 token 的对数概率。 |
moderation_hit_type | string | - | 模型输出文字含有敏感信息时,会返回模型输出文字命中的风险分类标签。 返回值及含义:
|
usage | usage | - | 本次请求的 token 用量。 |
total_tokens | integer | 10000 | 本次请求消耗的总 token 数量(输入 + 输出)。 |
prompt_tokens | integer | 1000 | 输入给模型处理的内容 token 数量。 |
prompt_tokens_details | prompt_tokens_details | - | 输入给模型处理的内容 token 数量的细节。 |
cached_tokens | integer | 100 | 缓存输入内容的 token 用量,此处应为 0。 |
audio_tokens | integer | 100 | 音频输入内容所消耗的 token 数量。 |
audio_cached_tokens | integer | 100 | 缓存音频输入内容的 token 用量,此处应为 0。 |
completion_tokens | integer | 9000 | 模型输出内容花费的 token。 |
completion_tokens_details | completion_tokens_details | - | 模型输出内容花费的 token 的细节。 |
reasoning_tokens | integer | 200 | 输出思维链内容花费的 token 数 。 |
curl --location "https://operator.las.cn-beijing.volces.com/api/v1/chat/completions" \ --header "Content-Type: application/json" \ --header "Authorization: Bearer $LAS_API_KEY" \ --data '{ "messages": [ { "role": "user", "content": [ { "type": "video_url", "video_url": { "url": "https://las-ai-cn-beijing.tos-cn-beijing.volces.com/*****/sample.mp4" } }, { "type": "text", "text": "视频里面有什么" } ] } ], "model": "doubao-seed-2-0-pro-260215" }'
{ "model": "doubao-seed-2-0-pro-260215", "usage": { "prompt_tokens": 3877, "completion_tokens": 493, "total_tokens": 4370, "prompt_tokens_details": { "cached_tokens": 0, "audio_tokens": null, "audio_cached_tokens": null }, "completion_tokens_details": { "reasoning_tokens": 354, "provisioned_tokens": null } }, "created": 1772692173, "id": "0217726921599114f28f9638b6effb5ab036b3eddba1d5642ea3d", "choices": [ { "finish_reason": "stop", "index": 0, "logprobs": null, "message": { "content": "视频展现的是海边惬意的户外场景:\n1. 核心内容:一位戴着浅米色宽檐帽、黑色墨镜的女士,穿着白色上衣+印花彩色半身裙,靠在白色建筑的墙角,坐在折叠椅上手风琴演奏,演奏时还伴随哼唱,状态十分放松。她的脚边放着一瓶饮用水,背景是蓝色的海面和远处的低矮岸线。\n2. 画面变化:过程中镜头逐渐向女士推近,能越来越清晰看到她演奏的细节和神态;后半段还有穿绿短袖、浅色长裤的路人从她旁边经过。\n整体氛围闲适,充满海滨区域的松弛感。", "reasoning_content": "\n用户现在需要描述视频里的内容对吧,首先先梳理场景:首先是户外,靠海的地方,有个白色建筑的墙角对吧?然后主角是个女士,戴着浅色宽檐帽,白上衣,花裙子,墨镜,坐在折叠椅上,正在拉手风琴,旁边地上放着瓶装水,背景是海和远处的岸。然后过程里她一边拉一边还在唱,镜头慢慢往她那边推近对吧?然后后面有路人经过,比如穿绿短袖浅色裤子的人从旁边走过,还有其他路人?哦对,整体氛围很悠闲,是海边的街头演奏那种感觉对吧?\n等下整理清楚:\n首先整体场景:这是在海边的户外,靠近一处白色建筑的墙角,地面是石质地,背景能看到蓝色的海面和远处的低矮陆地,天气晴朗。\n然后核心人物:一位女士坐在黑色折叠椅上,她戴着浅米色宽檐帽、黑色墨镜,穿白色上衣、印着花卉图案的彩色半身裙,脚上是黑色凉鞋,正演奏着手风琴,演奏的过程中她还在跟着哼唱,状态很放松悠闲。她脚边放着一瓶透明的饮用水,旁边还有琴盒类的黑色箱子。\n然后镜头变化:视频过程中镜头逐渐向这位演奏的女士推近,到后半段能清晰看到她演奏的细节和神态。\n最后还有小细节:视频后半段有路人从她旁边的建筑旁走过,比如一位穿薄荷绿短袖、浅卡其色长裤的女士从旁边经过。\n整个氛围很闲适,充满海边小镇的惬意感。\n对,这样说清楚就可以了。", "role": "assistant" } } ], "object": "chat.completion" }
HttpStatusCode | 错误码 | 错误信息 | 描述 |
|---|---|---|---|
400 | Model.InvalidName | The model name is invalid. | 模型名称不合法 |
401 | Authorization.Missing | Missing Authorization. | 缺少鉴权 |
401 | ApiKey.Invalid | The api key is invalid. | API不合法 |
通过Responses接口调用 doubao-seed-2.0 模型进行多模态理解。 接口定义参考 创建模型响应。
支持的模型和版本:
curl --location "https://operator.las.cn-beijing.volces.com/api/v1/responses" \ --header "Content-Type: application/json" \ --header "Authorization: Bearer $LAS_API_KEY" \ --data '{ "input": [ { "role": "user", "content": [ { "type": "input_video", "video_url": "https://las-ai-cn-beijing.tos-cn-beijing.volces.com/*****/sample.mp4" }, { "type": "input_text", "text": "视频里面有什么" } ] } ], "model": "doubao-seed-2-0-pro-260215" }'
{ "created_at": 1772617764, "error": null, "id": "resp_021772617762470960a4483e1c6480e5dcf931407efe2bda06a32", "incomplete_details": null, "max_output_tokens": 32768, "model": "doubao-seed-2-0-pro-260215", "object": "response", "output": [ { "type": "reasoning", "id": "rs_02177261776458300000000000000000000ffffac1504e228c011", "summary": [ { "type": "summary_text", "text": "用户现在需要分析视频内容,先看画面:一位戴着浅色宽边帽、墨镜,穿白色上衣和花裙子的女士,坐在白色建筑旁的折叠椅上,演奏手风琴,同时还在唱歌。背景是海边,有蓝色的水域和远处的陆地。视频里还有其他元素:她旁边有水瓶,后来有行人(穿绿上衣、卡其裤的人,还有另一个人)从她旁边走过。整个场景是户外海边,女士专注地演奏手风琴并演唱,动作包括按手风琴的键、推拉风箱,头部随着音乐摆动。现在整理这些元素,清晰描述出来。" } ], "status": "completed" }, { "type": "message", "id": "msg_02177261776828500000000000000000000ffffac1504e2a4e276", "role": "assistant", "content": [ { "type": "output_text", "text": "视频里呈现的内容有:\n1. 人物与行为:一位戴着浅色宽边遮阳帽、墨镜,身穿白色上衣+花卉图案长裙的女士,坐在白色建筑旁的折叠椅上,一边演奏手风琴(手部按动琴键、推拉风箱),一边开口演唱,头部也会随着音乐律动;后期有两位行人(一位穿湖绿色上衣+卡其色下装、一位穿白色上衣)从她身旁路过。\n2. 环境与物品:场景是户外海边区域,背景能看到蓝色的水域与远处的绿植陆地;女士身旁地面放着一瓶矿泉水,她身后有打开的箱子。", "annotations": null } ], "status": "completed", "partial": null } ], "previous_response_id": null, "thinking": null, "reasoning": null, "service_tier": "default", "status": "completed", "temperature": null, "tools": null, "top_p": null, "usage": { "input_tokens": 3930, "output_tokens": 276, "total_tokens": 4206, "input_tokens_details": { "cached_tokens": 0, "audio_tokens": null, "audio_cached_tokens": null }, "output_tokens_details": { "reasoning_tokens": 137 }, "tool_usage": null, "tool_usage_details": null }, "caching": { "type": "disabled", "prefix": null }, "text": null, "instructions": null, "store": true, "expire_at": 1772876962, "tool_choice": null, "parallel_tool_calls": null, "max_tool_calls": null }