语音转文字(Doubao-录音文件识别)增强版--AI 数据湖服务-火山引擎

文档中心

AI 数据湖服务

音频识别

语音转文字(Doubao-录音文件识别)增强版

算子介绍

描述

LAS语音转文字(Doubao-录音文件识别)增强版算子基于豆包录音文件识别大模型，能够将输入音频/视频文件中的语音，转写为文本输出。支持多种音/视频格式、多语种、音频降噪及大文件处理，适用于内容质检审核、音视频字幕生成、语音搜索、课堂内容分析等场景。

使用限制

暂只支持单个语音文件传入
扩展支持的其他语种(豆包语音支持的13个语种之外)，仅支持录音转写能力，暂不支持自动标点、语义顺滑、说话人识别、数字规整ITN、热词纠错、多模态视觉识别等功能。
目前支持的音频格式为 raw, wav, mp3, ogg。
当前系统仅对以下目标语种开放完整能力支持：
- 英语（en）、日语（ja）、印尼语（id）、西班牙语（es）、葡萄牙语（pt）、德语（de）、法语（fr）、韩语（ko）、菲律宾语（fil）、马来语（ms）、泰语（th）、阿拉伯语（ar）。
- 若目标语种不在上述列表中，则仅支持基础转录功能，暂未开放说话人分离、情感识别等高级能力。

核心功能

多格式音频/视频输入识别：
- 除音频外，新增支持视频文件输入，las算子可自动提取视频音轨进行识别。
- 除raw/wav/mp3/ogg外，扩展支持mp4/mov/mkv/flac等容器格式。
- las算子对于输入的音视频文件无文件大小/时长限制。
- 除公网https url访问外，也支持tos内网路径访问(tos://bucket-name/路径名/文件名)。
音频前处理增强，提升模型效果：
- 内置音频降噪模块，可有效降低背景噪声对识别的影响，提升录音文件转写的准确率。
多语种支持：
- 可自动识别语种或按用户指定语言进行识别。
- 扩充识别语种至 99 种，满足多语种、多区域的音频数据处理需求。

应用场景

内容审核质检：将录音识别为文字，通过质检规则对文本进行分析，及时发现违规内容并干预处理；或对内容进行监控分析，发掘潜在商机。
音视频字幕：支持自动将音/视频中的语音、歌词识别转换为文本，一键生成与音视频对应的字幕内容。适用于视频剪辑、视频观看、视频会议等多个场景。
课堂内容分析：将课堂录音文件进行识别，通过文字还原课堂场景，分析教学内容，提升教学质量。
会议访谈转写：将会议、访谈音频异步识别为文字，自动切分有语音部分识别，降本增效；同时自动分段，有效提升会议内容记录效率。

计费说明

计费标准

细分项	计费标准说明
计费项	基于输入音频的时长统计用量进行计费。
计费类型	按量计费，单位：`元/小时`，按实际的计费用量每小时出账。
单价	与选择使用的模型有关。

计费详情
计费公式：总费用 = 单价 * 用量
细分场景
单价
模型：Seed-ASR 2.0 增强版
1.6 元/小时
模型：Seed-ASR 1.0 增强版
4.6 元/小时

细分场景	单价
模型：Seed-ASR 2.0 增强版	1.6 元/小时
模型：Seed-ASR 1.0 增强版	4.6 元/小时

注意与前提

细分项	注意与前提
开通 LAS	如果您是一个全新的火山引擎用户，此前未开通过 LAS 产品，您可先开通 LAS，不使用 LAS 的计费功能仅开通 LAS 产品不会产生费用。开通操作请参见准备工作。开通完成后可查看算子介绍文档，了解算子能力、上手引导等，详情可参见：LAS 智能数据处理算子。
费用	调用算子前，您需先了解使用算子时的模型调用费用，详情请参见大模型调用计费。
鉴权（API Key）	调用算子前，您需要先生成算子调用的API Key，并建议将API Key配置为环境变量，便于更安全地调用算子，详情请参见获取 API Key 并配置。
BaseURL	调用算子前，您需要先根据您当前使用的LAS服务所在地域，了解算子调用的BaseURL，用于配置算子调用路径参数取值。详情请参见获取 Base URL，下文中的调用示例仅作为参考，实际调用时需替换为您对应地域的路径取值。

在线体验

LAS 为您提供了“在线体验”的能力，并为您提供了一定的免费体验额度，您无需任何配置，即可在在线体验 LAS 算子的数据处理效果。

注意

当前算子在线体验可免费解析 5 分钟的音频文件，超出部分会依据算子的计费项进行计费，各算子的计费项及计费逻辑请参见大模型调用计费。

在线体验入口

登录并进入 LAS 控制台后，查找到当前算子卡片，鼠标悬浮于算子卡片上，单击“在线体验”按钮。

在线体验操作演示

LAS 为您提供了多个示例音频文件，您也可以删除示例文件，手动上传。
在线体验时，可灵活设置算子的处理参数。

Rest API 调用

使用说明

语音转文字(Doubao-录音文件识别)增强版算子调用为异步接口，处理流程分为提交任务和查询结果两个阶段。您需要先创建语音识别任务，再通过语音识别任务的 ID 去查询语音识别结果。

Submit（提交任务）

接口说明

提交音频链接，并获取服务端分配的任务 ID。

请求参数

参数	类型	是否必填	示例值	描述
operator_id	string	是	las_asr_pro	算子Id
operator_version	string	是	v2	算子版本
data	SpeechRecognition	是		请求数据
user	UserConfig	否		用户相关配置
uid	string	否		用户标识，建议采用 IMEI 或 MAC。
audio	Audio	是		音频相关配置
url	string	是		音频链接
language	string	否	en-US	当该键为空时，该模型支持中英文、上海话、闽南语，四川、陕西、粤语识别。当将其设置为下方特定键时，它可以识别指定语言。英语：en-US 日语：ja-JP 印尼语：id-ID 西班牙语：es-MX 葡萄牙语：pt-BR 德语：de-DE 法语：fr-FR 韩语：ko-KR 菲律宾语：fil-PH 马来语：ms-MY 泰语：th-TH 阿拉伯语：ar-SA
format	string	是	mp3	音频容器格式，目前支持 raw/wav/mp3/ogg 格式
codec	string	否	raw	音频编码格式，目前支持 raw / opus，默认为 raw(pcm)
rate	integer	否		音频采样率，默认为16000
bits	integer	否		音频采样点位数，默认为16，暂只支持16bits
channel	integer	否		音频声道数，1(mono) / 2(stereo)，默认为1。
resource	string	否	bigasr	可选值为 "bigasr" 与 "seedasr"，其中默认值为"bigasr"。
request	RequestConfig	是		请求相关配置
model_name	string	是	bigmodel	模型名称，目前只有bigmodel
model_version	string	是	bigmodel	当 resource 指定为 'bigasr' 时，传model_version = "400" 使用400模型效果，不传时为默认310模型效果。 400模型性能略有提升，且ITN有较大优化。当 resource 指定为 'seedasr' 时，请勿传该参数。
enable_itn	boolean	否	true	默认为 true。文本规范化 (ITN) 是自动语音识别 (ASR) 后处理管道的一部分。 ITN 的任务是将 ASR 模型的原始语音输出转换为书面形式，以提高文本的可读性。例如，“一九七零年”->“1970年”和“一百二十三美元”->“$123”。
enable_punc	boolean	否	false	默认为 false。启用标点。
enable_ddc	boolean	否	false	默认为 false。语义顺滑是一种技术，旨在提高自动语音识别（ASR）结果的文本可读性和流畅性。这项技术通过删除或修改ASR结果中的不流畅部分，如停顿词、语气词、语义重复词等，使得文本更加易于阅读和理解。
enable_speaker_info	boolean	否	false	默认为 false，开启后可返回说话人的信息，10人以内，效果较好。（如果音频存在音量、远近等明显变化，无法保证区分效果）
enable_channel_split	boolean	否	false	默认为 false。如果设为 true，则会在返回结果中使用channel_id标记，1为左声道，2为右声道。
show_utterances	boolean	否	false	输出语音停顿、分句、分词信息
show_speech_rate	boolean	否	false	分句信息携带语速。如果设为 true，则会在分句additions信息中使用speech_rate标记，单位为 token/s。默认 false
show_volume	boolean	否	false	默认 false 如果设为 true，则会在分句additions信息中使用volume标记，单位为分贝。
enable_lid	boolean	否	false	启用语种识别。目前支持语种：普通话、英语、上海话、闽南语，四川话、陕西话、粤语
enable_emotion_detection	boolean	否	false	默认 false。如果设为 true，则会在分句additions信息中使用emotion标记, 返回对应的情绪标签。支持的情绪标签包括： - "angry"：表示情绪为生气 - "happy"：表示情绪为开心 - "neutral"：表示情绪为平静或中性 - "sad"：表示情绪为悲伤 - "surprise"：表示情绪为惊讶
enable_gender_detection	boolean	否	false	默认 false。如果设为 true，则会在分句additions信息中使用gender标记, 返回对应的性别标签（male/female）。
vad_segment	boolean	否	false	默认为 false，默认是语义分句。打开双声道识别时，通常需要使用vad分句，可同时打开此参数
end_window_size	integer	否	800	配置该值，不使用语义分句，根据静音时长来分句。范围300 - 5000ms，建议设置800ms或者1000ms，比较敏感的场景可以配置500ms或者更小。（如果配置的过小，则会导致分句过碎，配置过大会导致不容易将说话内容分开。建议依照自身场景按需配置）
sensitive_words_filter	string	否	"sensitive_words_filter":{"system_reserved_filter":true,"filter_with_empty":["敏感词"],"filter_with_signed":["敏感词"]}",	敏感词过滤功能，支持开启或关闭，开启后支持对不同类型的敏感词进行处理。 LAS 为您预置了系统敏感词（主要为一些限制级词汇），您可开启对系统敏感词进行脱敏处理，也可自定义其他敏感词对自定义敏感词进行以下处理方式：不处理(默认，即展示原文)、过滤、替换为。设置方式如下： system_reserved_filter：设置为true或false，设置是否使用系统敏感词，取值为“true”时，会将系统敏感词替换成。 filter_with_empty：自定义敏感词范围，并将此类敏感词替换成空。 filter_with_signed ：自定义敏感词，并将此类敏感词替换成 * 。
enable_poi_fc	boolean	否	false	对于语音识别困难的词语，能调用专业的地图领域推荐词服务辅助识别。示例： `"request": { "enable_poi_fc": true, "corpus": { "context": "{\"loc_info\":{\"city_name\":\"北京市\"}}" } }` 其中loc_info字段可选，传入该字段结果相对更精准，city_name单位为地级市。
enable_music_fc	boolean	否	false	对于语音识别困难的词语，能调用专业的音领域推荐词服务辅助识别。配置格式： `"request": { "enable_music_fc": true }`
enable_denoise	boolean	否		是否开启降噪
enable_multi_language	boolean	否		是否开启语种识别和多语种支持，默认为 true。
corpus	Corpus	否		语料/干预词等
context	string	否		热词直传，支持5000个热词 "context":"{\"hotwords\":[{\"word\":\"热词1号\"}, {\"word\":\"热词2号\"}]}" 上下文，限制800 tokens及20轮（含）内，超出会按照时间顺序从新到旧截断，优先保留更新的对话 context_data字段按照从新到旧的顺序排列，以下是反序列化后的例子，传入需要序列化为jsonstring（转义引号）上下文:可以加入对话历史、聊天所在bot信息、个性化信息、业务场景信息等,如: a.对话历史:把最近几轮的对话历史传进来 b.聊天所在bot信息:如"我在和林黛玉聊天","我在使用A助手和手机对话" c.个性化信息:"我当前在北京市海淀区","我有四川口音","我喜欢音乐" d.业务场景信息:"当前是中国平安的营销人员针对外部客户采访的录音,可能涉及..." { \"context_type\": \"dialog_ctx\", \"context_data\":[ {\"text\": \"text1\"}, {\"text\": \"text2\"}, {\"text\": \"text3\"}, {\"text\": \"text4\"}, ... ] }

返回参数

参数	类型	描述
metadata	Metadata	请求元信息
task_id	string	异步模式下的任务id。
task_status	string	异步模式下的任务状态。
business_code	string	业务码
error_msg	string	如有异常，会返回详细的异常信息。
request_id	string	请求requestid

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/submit" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '
{
    "operator_id": "las_asr_pro",
    "operator_version": "v1",
    "data": {
        "resource": "bigasr",
        "audio": {
            "url": "https://las-ai-cn-beijing-online.tos-cn-beijing.volces.com/operator_cards_serving/public/online/las_asr/badaling.wav",
            "format": "wav"
        },
        "request": {
            "model_name": "bigmodel"
        }
    }
}'

返回示例

{
    "metadata": {
        "task_id": "xxxxx123ef24ea40546c",
        "task_status": "PENDING",
        "business_code": "0",
        "error_msg": "",
        "request_id": "494022a8a0fc3eadb758cf8b0e8b20ef"
    }
}

Poll（查询结果）

接口说明

通过任务 ID 查询录音转写结果。

请求参数

参数	类型	必填	示例值	说明
operator_id	string	是	las_asr_pro	算子Id
operator_version	string	是	v1	算子版本
task_id	string	是		异步任务Id

返回参数

参数	类型	示例值	描述
metadata	Metadata		请求的元信息，异步任务的id在其中的task_id字段下。
task_id	string	xxxxx123ef24ea40546c-las-asr	异步模式下的任务id。
task_status	string	COMPLETED	异步模式下的任务状态。
business_code	string	0	业务码 - PENDING, 提交任务排队 - RUNNING, 正在运行 - COMPLETED, 已经完成 - FAILED, 失败 - TIMEOUT, 超时
error_msg	string		如有异常，会返回详细的异常信息。
request_id	string	d204c21f5c7c8f8cfeb85d211b9c20ac	请求requestid
data	AudioResponse		返回的音频识别结果。
audio_info	AudioInfo		音频信息
duration	integer	3575	音频时长，单位秒
language	string	zh-CN	音频语种
result	AudioResult		音频识别结果
text	string	参观达*长城。	识别出的文本内容
utterances	list of Utterance		语音停顿、分句、分词信息
additions	Additions		额外信息，如说话人等
emotion_degree	string		情感强度
emotion_degree_score	string		情感强度得分
emotion	string		情感类型
emotion_score	string		情感类型得分
gender	string		性别
gender_score	string		性别得分
speech_rate	string		说话频率
volume	string		音量
speaker	string		说话人
channel_id	string	1	声道编号
confidence	integer		置信度
end_time	integer	2320	结束时间
start_time	integer	640	起始时间
text	string	参观达*长城。	该部分文本内容
words	list of Word		单词相关信息
confidence	integer	0	置信度
blank_duration	integer		空白时长
end_time	integer	920	单词结束时间
start_time	integer	640	单词起始时间
text	string	参	单词文本
additions	RequestAdditions		额外信息
duration	string	3575	音频时长
lid_lang	string		音频语种

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/poll" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '
{
    "operator_id": "las_asr_pro",
    "operator_version": "v1",
    "task_id": "xxxxx123ef24ea40546c"
}'

返回示例

{
    "metadata": {
        "task_id": "xxxxx123ef24ea40546c",
        "task_status": "COMPLETED",
        "business_code": "0",
        "error_msg": "",
        "request_id": "d204c21f5c7c8f8cfeb85d211b9c20ac"
    },
    "data": {
        "audio_info": {
            "duration": 3575
        },
        "result": {
            "additions": {
                "duration": "3575",
                "language": "zh-CN"
            },
            "text": "参观达*长城。",
            "utterances": [
                {
                    "additions": {
                        "channel_id": "1"
                    },
                    "end_time": 2320,
                    "start_time": 640,
                    "text": "参观达*长城。",
                    "words": [
                        {
                            "confidence": 0,
                            "end_time": 920,
                            "start_time": 640,
                            "text": "参"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1120,
                            "start_time": 920,
                            "text": "观"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1480,
                            "start_time": 1440,
                            "text": "达"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1720,
                            "start_time": 1680,
                            "text": "*"
                        },
                        {
                            "confidence": 0,
                            "end_time": 2080,
                            "start_time": 1880,
                            "text": "长"
                        },
                        {
                            "confidence": 0,
                            "end_time": 2320,
                            "start_time": 2080,
                            "text": "城"
                        }
                    ]
                }
            ]
        }
    }
}

最近更新时间：2026.06.12 18:25:37

这个页面对您有帮助吗？

有用

无用

AI 数据湖服务

描述 #

使用限制 #

核心功能 #

应用场景 #

使用说明 #

Submit（提交任务） #

接口说明 #

请求参数 #

返回参数 #

示例 #

请求示例

返回示例

Poll（查询结果） #

接口说明 #

请求参数 #

返回参数 #

示例 #

请求示例

返回示例

描述

使用限制

核心功能

应用场景

使用说明

Submit（提交任务）

接口说明

请求参数

返回参数

示例

Poll（查询结果）

接口说明

请求参数

返回参数

示例