LAS语音转文字(Doubao-录音文件识别)增强版算子基于豆包录音文件识别大模型,能够将输入音频/视频文件中的语音,转写为文本输出。支持多种音/视频格式、多语种、音频降噪及大文件处理,适用于内容质检审核、音视频字幕生成、语音搜索、课堂内容分析等场景。
计费标准
细分项 | 计费标准说明 |
|---|---|
计费项 | 基于输入音频的时长统计用量进行计费。 |
计费类型 | 按量计费,单位: |
单价 | 与选择使用的模型有关。 |
计费详情
计费公式:总费用 = 单价 * 用量
细分场景 | 单价 |
|---|---|
| 1.6 元/小时 |
| 4.6 元/小时 |
细分项 | 注意与前提 |
|---|---|
开通 LAS |
|
费用 | 调用算子前,您需先了解使用算子时的模型调用费用,详情请参见大模型调用计费。 |
鉴权(API Key) | 调用算子前,您需要先生成算子调用的API Key,并建议将API Key配置为环境变量,便于更安全地调用算子,详情请参见获取 API Key 并配置。 |
BaseURL | 调用算子前,您需要先根据您当前使用的LAS服务所在地域,了解算子调用的BaseURL,用于配置算子调用路径参数取值。 |
LAS 为您提供了“在线体验”的能力,并为您提供了一定的免费体验额度,您无需任何配置,即可在在线体验 LAS 算子的数据处理效果。
注意
当前算子在线体验可免费解析 5 分钟的音频文件,超出部分会依据算子的计费项进行计费,各算子的计费项及计费逻辑请参见大模型调用计费。
提交音频链接,并获取服务端分配的任务 ID。
参数 | 类型 | 是否必填 | 示例值 | 描述 |
|---|---|---|---|---|
operator_id | string | 是 | las_asr_pro | 算子Id |
operator_version | string | 是 | v2 | 算子版本 |
data | SpeechRecognition | 是 | 请求数据 | |
user | UserConfig | 否 | 用户相关配置 | |
uid | string | 否 | 用户标识,建议采用 IMEI 或 MAC。 | |
audio | Audio | 是 | 音频相关配置 | |
url | string | 是 | 音频链接 | |
language | string | 否 | en-US | 当该键为空时,该模型支持中英文、上海话、闽南语,四川、陕西、粤语识别。 当将其设置为下方特定键时,它可以识别指定语言。 英语:en-US 日语:ja-JP 印尼语:id-ID 西班牙语:es-MX 葡萄牙语:pt-BR 德语:de-DE 法语:fr-FR 韩语:ko-KR 菲律宾语:fil-PH 马来语:ms-MY 泰语:th-TH 阿拉伯语:ar-SA |
format | string | 是 | mp3 | 音频容器格式,目前支持 raw/wav/mp3/ogg 格式 |
codec | string | 否 | raw | 音频编码格式,目前支持 raw / opus,默认为 raw(pcm) |
rate | integer | 否 | 音频采样率,默认为16000 | |
bits | integer | 否 | 音频采样点位数,默认为16,暂只支持16bits | |
channel | integer | 否 | 音频声道数,1(mono) / 2(stereo),默认为1。 | |
resource | string | 否 | bigasr | 可选值为 "bigasr" 与 "seedasr",其中默认值为"bigasr"。 |
request | RequestConfig | 是 | 请求相关配置 | |
model_name | string | 是 | bigmodel | 模型名称,目前只有bigmodel |
model_version | string | 是 | bigmodel | 当 resource 指定为 'bigasr' 时,传model_version = "400" 使用400模型效果,不传时为默认310模型效果。 400模型性能略有提升,且ITN有较大优化。 当 resource 指定为 'seedasr' 时,请勿传该参数。 |
enable_itn | boolean | 否 | true | 默认为 true。 文本规范化 (ITN) 是自动语音识别 (ASR) 后处理管道的一部分。 ITN 的任务是将 ASR 模型的原始语音输出转换为书面形式,以提高文本的可读性。 例如,“一九七零年”->“1970年”和“一百二十三美元”->“$123”。 |
enable_punc | boolean | 否 | false | 默认为 false。 启用标点。 |
enable_ddc | boolean | 否 | false | 默认为 false。 语义顺滑是一种技术,旨在提高自动语音识别(ASR)结果的文本可读性和流畅性。这项技术通过删除或修改ASR结果中的不流畅部分,如停顿词、语气词、语义重复词等,使得文本更加易于阅读和理解。 |
enable_speaker_info | boolean | 否 | false | 默认为 false,开启后可返回说话人的信息,10人以内,效果较好。 (如果音频存在音量、远近等明显变化,无法保证区分效果) |
enable_channel_split | boolean | 否 | false | 默认为 false。 如果设为 true,则会在返回结果中使用channel_id标记,1为左声道,2为右声道。 |
show_utterances | boolean | 否 | false | 输出语音停顿、分句、分词信息 |
show_speech_rate | boolean | 否 | false | 分句信息携带语速。 如果设为 true,则会在分句additions信息中使用speech_rate标记,单位为 token/s。默认 false |
show_volume | boolean | 否 | false | 默认 false 如果设为 true,则会在分句additions信息中使用volume标记,单位为 分贝。 |
enable_lid | boolean | 否 | false | 启用语种识别。 目前支持语种:普通话、英语、上海话、闽南语,四川话、陕西话、粤语 |
enable_emotion_detection | boolean | 否 | false | 默认 false。 如果设为 true,则会在分句additions信息中使用emotion标记, 返回对应的情绪标签。 支持的情绪标签包括: - "angry":表示情绪为生气 - "happy":表示情绪为开心 - "neutral":表示情绪为平静或中性 - "sad":表示情绪为悲伤 - "surprise":表示情绪为惊讶 |
enable_gender_detection | boolean | 否 | false | 默认 false。 如果设为 true,则会在分句additions信息中使用gender标记, 返回对应的性别标签(male/female)。 |
vad_segment | boolean | 否 | false | 默认为 false,默认是语义分句。 打开双声道识别时,通常需要使用vad分句,可同时打开此参数 |
end_window_size | integer | 否 | 800 | 配置该值,不使用语义分句,根据静音时长来分句。 范围300 - 5000ms,建议设置800ms或者1000ms,比较敏感的场景可以配置500ms或者更小。(如果配置的过小,则会导致分句过碎,配置过大会导致不容易将说话内容分开。建议依照自身场景按需配置) |
sensitive_words_filter | string | 否 | "sensitive_words_filter":{"system_reserved_filter":true,"filter_with_empty":["敏感词"],"filter_with_signed":["敏感词"]}", | 敏感词过滤功能,支持开启或关闭,开启后支持对不同类型的敏感词进行处理。 LAS 为您预置了系统敏感词(主要为一些限制级词汇),您可开启对系统敏感词进行脱敏处理,也可自定义其他敏感词对自定义敏感词进行以下处理方式:不处理(默认,即展示原文)、过滤、替换为*。设置方式如下:
|
enable_poi_fc | boolean | 否 | false | 对于语音识别困难的词语,能调用专业的地图领域推荐词服务辅助识别。 示例: 其中loc_info字段可选,传入该字段结果相对更精准,city_name单位为地级市。 |
enable_music_fc | boolean | 否 | false | 对于语音识别困难的词语,能调用专业的音领域推荐词服务辅助识别。 配置格式: |
enable_denoise | boolean | 否 | 是否开启降噪 | |
enable_multi_language | boolean | 否 | 是否开启语种识别和多语种支持,默认为 true。 | |
corpus | Corpus | 否 | 语料/干预词等 | |
context | string | 否 | 热词直传,支持5000个热词 "context":"{\"hotwords\":[{\"word\":\"热词1号\"}, {\"word\":\"热词2号\"}]}" 上下文,限制800 tokens及20轮(含)内,超出会按照时间顺序从新到旧截断,优先保留更新的对话 context_data字段按照从新到旧的顺序排列,以下是反序列化后的例子,传入需要序列化为jsonstring(转义引号) |
参数 | 类型 | 示例值 | 描述 |
|---|---|---|---|
metadata | Metadata | 请求元信息 | |
task_id | string | 异步模式下的任务id。 | |
task_status | string | 异步模式下的任务状态。 | |
business_code | string | 业务码 | |
error_msg | string | 如有异常,会返回详细的异常信息。 | |
request_id | string | 请求requestid |
curl --location "https://operator.las.cn-beijing.volces.com/api/v1/submit" \ --header "Content-Type: application/json" \ --header "Authorization: Bearer $LAS_API_KEY" \ --data ' { "operator_id": "las_asr_pro", "operator_version": "v1", "data": { "resource": "bigasr", "audio": { "url": "https://las-ai-cn-beijing-online.tos-cn-beijing.volces.com/operator_cards_serving/public/online/las_asr/badaling.wav", "format": "wav" }, "request": { "model_name": "bigmodel" } } }'
{ "metadata": { "task_id": "xxxxx123ef24ea40546c", "task_status": "PENDING", "business_code": "0", "error_msg": "", "request_id": "494022a8a0fc3eadb758cf8b0e8b20ef" } }
通过任务 ID 查询录音转写结果。
参数 | 类型 | 必填 | 示例值 | 说明 |
|---|---|---|---|---|
operator_id | string | 是 | las_asr_pro | 算子Id |
operator_version | string | 是 | v1 | 算子版本 |
task_id | string | 是 | 异步任务Id |
参数 | 类型 | 示例值 | 描述 |
|---|---|---|---|
metadata | Metadata | 请求的元信息,异步任务的id在其中的task_id字段下。 | |
task_id | string | xxxxx123ef24ea40546c-las-asr | 异步模式下的任务id。 |
task_status | string | COMPLETED | 异步模式下的任务状态。 |
business_code | string | 0 | 业务码 - PENDING, 提交任务排队 - RUNNING, 正在运行 - COMPLETED, 已经完成 - FAILED, 失败 - TIMEOUT, 超时 |
error_msg | string | 如有异常,会返回详细的异常信息。 | |
request_id | string | d204c21f5c7c8f8cfeb85d211b9c20ac | 请求requestid |
data | AudioResponse | 返回的音频识别结果。 | |
audio_info | AudioInfo | 音频信息 | |
duration | integer | 3575 | 音频时长,单位秒 |
language | string | zh-CN | 音频语种 |
result | AudioResult | 音频识别结果 | |
text | string | 参观达*长城。 | 识别出的文本内容 |
utterances | list of Utterance | 语音停顿、分句、分词信息 | |
additions | Additions | 额外信息,如说话人等 | |
emotion_degree | string | 情感强度 | |
emotion_degree_score | string | 情感强度得分 | |
emotion | string | 情感类型 | |
emotion_score | string | 情感类型得分 | |
gender | string | 性别 | |
gender_score | string | 性别得分 | |
speech_rate | string | 说话频率 | |
volume | string | 音量 | |
speaker | string | 说话人 | |
channel_id | string | 1 | 声道编号 |
confidence | integer | 置信度 | |
end_time | integer | 2320 | 结束时间 |
start_time | integer | 640 | 起始时间 |
text | string | 参观达*长城。 | 该部分文本内容 |
words | list of Word | 单词相关信息 | |
confidence | integer | 0 | 置信度 |
blank_duration | integer | 空白时长 | |
end_time | integer | 920 | 单词结束时间 |
start_time | integer | 640 | 单词起始时间 |
text | string | 参 | 单词文本 |
additions | RequestAdditions | 额外信息 | |
duration | string | 3575 | 音频时长 |
lid_lang | string | 音频语种 |
curl --location "https://operator.las.cn-beijing.volces.com/api/v1/poll" \ --header "Content-Type: application/json" \ --header "Authorization: Bearer $LAS_API_KEY" \ --data ' { "operator_id": "las_asr_pro", "operator_version": "v1", "task_id": "xxxxx123ef24ea40546c" }'
{ "metadata": { "task_id": "xxxxx123ef24ea40546c", "task_status": "COMPLETED", "business_code": "0", "error_msg": "", "request_id": "d204c21f5c7c8f8cfeb85d211b9c20ac" }, "data": { "audio_info": { "duration": 3575 }, "result": { "additions": { "duration": "3575", "language": "zh-CN" }, "text": "参观达*长城。", "utterances": [ { "additions": { "channel_id": "1" }, "end_time": 2320, "start_time": 640, "text": "参观达*长城。", "words": [ { "confidence": 0, "end_time": 920, "start_time": 640, "text": "参" }, { "confidence": 0, "end_time": 1120, "start_time": 920, "text": "观" }, { "confidence": 0, "end_time": 1480, "start_time": 1440, "text": "达" }, { "confidence": 0, "end_time": 1720, "start_time": 1680, "text": "*" }, { "confidence": 0, "end_time": 2080, "start_time": 1880, "text": "长" }, { "confidence": 0, "end_time": 2320, "start_time": 2080, "text": "城" } ] } ] } } }