You need to enable JavaScript to run this app.
文档中心
AI 数据湖服务

AI 数据湖服务

复制全文
下载 pdf
音频识别
语音转文字(Doubao-录音文件识别)增强版
复制全文
下载 pdf
语音转文字(Doubao-录音文件识别)增强版

算子介绍

描述

LAS语音转文字(Doubao-录音文件识别)增强版算子基于豆包录音文件识别大模型,能够将输入音频/视频文件中的语音,转写为文本输出。支持多种音/视频格式、多语种、音频降噪及大文件处理,适用于内容质检审核、音视频字幕生成、语音搜索、课堂内容分析等场景。

使用限制

  • 暂只支持单个语音文件传入
  • 扩展支持的其他语种(豆包语音支持的13个语种之外),仅支持录音转写能力,暂不支持自动标点、语义顺滑、说话人识别、数字规整ITN、热词纠错、多模态视觉识别等功能。
  • 目前支持的音频格式为 raw, wav, mp3, ogg。
  • 当前系统仅对以下目标语种开放完整能力支持:
    • 英语(en)、日语(ja)、印尼语(id)、西班牙语(es)、葡萄牙语(pt)、德语(de)、法语(fr)、韩语(ko)、菲律宾语(fil)、马来语(ms)、泰语(th)、阿拉伯语(ar)。
    • 若目标语种不在上述列表中,则仅支持基础转录功能,暂未开放说话人分离、情感识别等高级能力。

核心功能

  • 多格式音频/视频输入识别:
    • 除音频外,新增支持视频文件输入,las算子可自动提取视频音轨进行识别。
    • 除raw/wav/mp3/ogg外,扩展支持mp4/mov/mkv/flac等容器格式。
    • las算子对于输入的音视频文件无文件大小/时长限制。
    • 除公网https url访问外,也支持tos内网路径访问(tos://bucket-name/路径名/文件名)。
  • 音频前处理增强,提升模型效果:
    • 内置音频降噪模块,可有效降低背景噪声对识别的影响,提升录音文件转写的准确率。
  • 多语种支持:
    • 可自动识别语种或按用户指定语言进行识别。
    • 扩充识别语种至 99 种,满足多语种、多区域的音频数据处理需求。

应用场景

  • 内容审核质检:将录音识别为文字,通过质检规则对文本进行分析,及时发现违规内容并干预处理;或对内容进行监控分析,发掘潜在商机。
  • 音视频字幕:支持自动将音/视频中的语音、歌词识别转换为文本,一键生成与音视频对应的字幕内容。适用于视频剪辑、视频观看、视频会议等多个场景。
  • 课堂内容分析:将课堂录音文件进行识别,通过文字还原课堂场景,分析教学内容,提升教学质量。
  • 会议访谈转写:将会议、访谈音频异步识别为文字,自动切分有语音部分识别,降本增效;同时自动分段,有效提升会议内容记录效率。

计费说明
  • 计费标准

    细分项
    计费标准说明

    计费项

    基于输入音频的时长统计用量进行计费。

    计费类型

    按量计费,单位:元/小时,按实际的计费用量每小时出账。

    单价

    与选择使用的模型有关。

  • 计费详情
    计费公式:总费用 = 单价 * 用量

    细分场景
    单价
    • 模型:Seed-ASR 2.0 增强版

    1.6 元/小时

    • 模型:Seed-ASR 1.0 增强版

    4.6 元/小时

注意与前提

细分项

注意与前提

开通 LAS

  • 如果您是一个全新的火山引擎用户,此前未开通过 LAS 产品,您可先开通 LAS,不使用 LAS 的计费功能仅开通 LAS 产品不会产生费用。开通操作请参见准备工作
  • 开通完成后可查看算子介绍文档,了解算子能力、上手引导等,详情可参见:LAS 智能数据处理算子

费用

调用算子前,您需先了解使用算子时的模型调用费用,详情请参见大模型调用计费

鉴权(API Key)

调用算子前,您需要先生成算子调用的API Key,并建议将API Key配置为环境变量,便于更安全地调用算子,详情请参见获取 API Key 并配置

BaseURL

调用算子前,您需要先根据您当前使用的LAS服务所在地域,了解算子调用的BaseURL,用于配置算子调用路径参数取值。
详情请参见获取 Base URL,下文中的调用示例仅作为参考,实际调用时需替换为您对应地域的路径取值。

在线体验

LAS 为您提供了“在线体验”的能力,并为您提供了一定的免费体验额度,您无需任何配置,即可在在线体验 LAS 算子的数据处理效果。

注意

当前算子在线体验可免费解析 5 分钟的音频文件,超出部分会依据算子的计费项进行计费,各算子的计费项及计费逻辑请参见大模型调用计费

在线体验入口

登录并进入 LAS 控制台 后,查找到当前算子卡片,鼠标悬浮于算子卡片上,单击“在线体验”按钮。
Image

在线体验操作演示

  • LAS 为您提供了多个示例音频文件,您也可以删除示例文件,手动上传。
  • 在线体验时,可灵活设置算子的处理参数。

Rest API 调用

使用说明

  • 语音转文字(Doubao-录音文件识别)增强版算子调用为异步接口,处理流程分为 提交任务和查询结果 两个阶段。您需要先创建语音识别任务,再通过语音识别任务的 ID 去查询语音识别结果。

Submit(提交任务)

接口说明

提交音频链接,并获取服务端分配的任务 ID。

请求参数

参数
类型
是否必填
示例值
描述
operator_id
string
las_asr_pro
算子Id
operator_version
string
v2
算子版本
data
SpeechRecognition
请求数据
user
UserConfig
用户相关配置
uid
string
用户标识,建议采用 IMEI 或 MAC。
audio
Audio
音频相关配置
url
string
音频链接
language
string
en-US
当该键为空时,该模型支持中英文、上海话、闽南语,四川、陕西、粤语识别。
当将其设置为下方特定键时,它可以识别指定语言。
英语:en-US
日语:ja-JP
印尼语:id-ID
西班牙语:es-MX
葡萄牙语:pt-BR
德语:de-DE
法语:fr-FR
韩语:ko-KR
菲律宾语:fil-PH
马来语:ms-MY
泰语:th-TH
阿拉伯语:ar-SA
format
string
mp3
音频容器格式,目前支持 raw/wav/mp3/ogg 格式
codec
string
raw
音频编码格式,目前支持 raw / opus,默认为 raw(pcm)
rate
integer
音频采样率,默认为16000
bits
integer
音频采样点位数,默认为16,暂只支持16bits
channel
integer
音频声道数,1(mono) / 2(stereo),默认为1。
resource
string
bigasr
可选值为 "bigasr" 与 "seedasr",其中默认值为"bigasr"。
request
RequestConfig
请求相关配置
model_name
string
bigmodel
模型名称,目前只有bigmodel
model_version
string
bigmodel
当 resource 指定为 'bigasr' 时,传model_version = "400" 使用400模型效果,不传时为默认310模型效果。
400模型性能略有提升,且ITN有较大优化。
当 resource 指定为 'seedasr' 时,请勿传该参数。
enable_itn
boolean
true
默认为 true。
文本规范化 (ITN) 是自动语音识别 (ASR) 后处理管道的一部分。 ITN 的任务是将 ASR 模型的原始语音输出转换为书面形式,以提高文本的可读性。
例如,“一九七零年”->“1970年”和“一百二十三美元”->“$123”。
enable_punc
boolean
false
默认为 false。 启用标点。
enable_ddc
boolean
false
默认为 false。
语义顺滑是一种技术,旨在提高自动语音识别(ASR)结果的文本可读性和流畅性。这项技术通过删除或修改ASR结果中的不流畅部分,如停顿词、语气词、语义重复词等,使得文本更加易于阅读和理解。
enable_speaker_info
boolean
false
默认为 false,开启后可返回说话人的信息,10人以内,效果较好。
(如果音频存在音量、远近等明显变化,无法保证区分效果)
enable_channel_split
boolean
false
默认为 false。
如果设为 true,则会在返回结果中使用channel_id标记,1为左声道,2为右声道。
show_utterances
boolean
false
输出语音停顿、分句、分词信息
show_speech_rate
boolean
false
分句信息携带语速。
如果设为 true,则会在分句additions信息中使用speech_rate标记,单位为 token/s。默认 false
show_volume
boolean
false
默认 false
如果设为 true,则会在分句additions信息中使用volume标记,单位为 分贝。
enable_lid
boolean
false
启用语种识别。
目前支持语种:普通话、英语、上海话、闽南语,四川话、陕西话、粤语
enable_emotion_detection
boolean
false
默认 false。
如果设为 true,则会在分句additions信息中使用emotion标记, 返回对应的情绪标签。
支持的情绪标签包括:
- "angry":表示情绪为生气
- "happy":表示情绪为开心
- "neutral":表示情绪为平静或中性
- "sad":表示情绪为悲伤
- "surprise":表示情绪为惊讶
enable_gender_detection
boolean
false
默认 false。
如果设为 true,则会在分句additions信息中使用gender标记, 返回对应的性别标签(male/female)。
vad_segment
boolean
false
默认为 false,默认是语义分句。
打开双声道识别时,通常需要使用vad分句,可同时打开此参数
end_window_size
integer
800
配置该值,不使用语义分句,根据静音时长来分句。
范围300 - 5000ms,建议设置800ms或者1000ms,比较敏感的场景可以配置500ms或者更小。(如果配置的过小,则会导致分句过碎,配置过大会导致不容易将说话内容分开。建议依照自身场景按需配置)
sensitive_words_filter
string
"sensitive_words_filter":{"system_reserved_filter":true,"filter_with_empty":["敏感词"],"filter_with_signed":["敏感词"]}",
敏感词过滤功能,支持开启或关闭,开启后支持对不同类型的敏感词进行处理。
LAS 为您预置了系统敏感词(主要为一些限制级词汇),您可开启对系统敏感词进行脱敏处理,也可自定义其他敏感词对自定义敏感词进行以下处理方式:不处理(默认,即展示原文)、过滤、替换为*。设置方式如下:
  • system_reserved_filter:设置为true或false,设置是否使用系统敏感词,取值为“true”时,会将系统敏感词替换成*。
  • filter_with_empty:自定义敏感词范围,并将此类敏感词替换成空。
  • filter_with_signed :自定义敏感词,并将此类敏感词替换成 * 。
enable_poi_fc
boolean
false
对于语音识别困难的词语,能调用专业的地图领域推荐词服务辅助识别。
示例:
 "request": { 
"enable_poi_fc": true,
"corpus": {
"context": "{\"loc_info\":{\"city_name\":\"北京市\"}}"
}
}
其中loc_info字段可选,传入该字段结果相对更精准,city_name单位为地级市。
enable_music_fc
boolean
false
对于语音识别困难的词语,能调用专业的音领域推荐词服务辅助识别。
配置格式:
 "request": {
"enable_music_fc": true
}
enable_denoise
boolean
是否开启降噪
enable_multi_language
boolean
是否开启语种识别和多语种支持,默认为 true。
corpus
Corpus
语料/干预词等
context
string
热词直传,支持5000个热词 "context":"{\"hotwords\":[{\"word\":\"热词1号\"}, {\"word\":\"热词2号\"}]}" 上下文,限制800 tokens及20轮(含)内,超出会按照时间顺序从新到旧截断,优先保留更新的对话 context_data字段按照从新到旧的顺序排列,以下是反序列化后的例子,传入需要序列化为jsonstring(转义引号)
上下文:可以加入对话历史、聊天所在bot信息、个性化信息、业务场景信息等,如:
a.对话历史:把最近几轮的对话历史传进来
b.聊天所在bot信息:如"我在和林黛玉聊天","我在使用A助手和手机对话"
c.个性化信息:"我当前在北京市海淀区","我有四川口音","我喜欢音乐"
d.业务场景信息:"当前是中国平安的营销人员针对外部客户采访的录音,可能涉及..."
{
\"context_type\": \"dialog_ctx\",
\"context_data\":[
{\"text\": \"text1\"},
{\"text\": \"text2\"},
{\"text\": \"text3\"},
{\"text\": \"text4\"},
...
]
}

返回参数

参数
类型
示例值
描述
metadata
Metadata
请求元信息
task_id
string
异步模式下的任务id。
task_status
string
异步模式下的任务状态。
business_code
string
业务码
error_msg
string
如有异常,会返回详细的异常信息。
request_id
string
请求requestid

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/submit" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '
{
    "operator_id": "las_asr_pro",
    "operator_version": "v1",
    "data": {
        "resource": "bigasr",
        "audio": {
            "url": "https://las-ai-cn-beijing-online.tos-cn-beijing.volces.com/operator_cards_serving/public/online/las_asr/badaling.wav",
            "format": "wav"
        },
        "request": {
            "model_name": "bigmodel"
        }
    }
}'

返回示例

{
    "metadata": {
        "task_id": "xxxxx123ef24ea40546c",
        "task_status": "PENDING",
        "business_code": "0",
        "error_msg": "",
        "request_id": "494022a8a0fc3eadb758cf8b0e8b20ef"
    }
}

Poll(查询结果)

接口说明

通过任务 ID 查询录音转写结果。

请求参数

参数

类型

必填

示例值

说明

operator_id

string

las_asr_pro

算子Id

operator_version

string

v1

算子版本

task_id

string

异步任务Id

返回参数

参数
类型
示例值
描述
metadata
Metadata
请求的元信息,异步任务的id在其中的task_id字段下。
task_id
string
xxxxx123ef24ea40546c-las-asr
异步模式下的任务id。
task_status
string
COMPLETED
异步模式下的任务状态。
business_code
string
0
业务码
- PENDING, 提交任务排队
- RUNNING, 正在运行
- COMPLETED, 已经完成
- FAILED, 失败
- TIMEOUT, 超时
error_msg
string
如有异常,会返回详细的异常信息。
request_id
string
d204c21f5c7c8f8cfeb85d211b9c20ac
请求requestid
data
AudioResponse
返回的音频识别结果。
audio_info
AudioInfo
音频信息
duration
integer
3575
音频时长,单位秒
language
string
zh-CN
音频语种
result
AudioResult
音频识别结果
text
string
参观达*长城。
识别出的文本内容
utterances
list of Utterance
语音停顿、分句、分词信息
additions
Additions
额外信息,如说话人等
emotion_degree
string
情感强度
emotion_degree_score
string
情感强度得分
emotion
string
情感类型
emotion_score
string
情感类型得分
gender
string
性别
gender_score
string
性别得分
speech_rate
string
说话频率
volume
string
音量
speaker
string
说话人
channel_id
string
1
声道编号
confidence
integer
置信度
end_time
integer
2320
结束时间
start_time
integer
640
起始时间
text
string
参观达*长城。
该部分文本内容
words
list of Word
单词相关信息
confidence
integer
0
置信度
blank_duration
integer
空白时长
end_time
integer
920
单词结束时间
start_time
integer
640
单词起始时间
text
string
单词文本
additions
RequestAdditions
额外信息
duration
string
3575
音频时长
lid_lang
string
音频语种

示例

请求示例

curl --location "https://operator.las.cn-beijing.volces.com/api/v1/poll" \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $LAS_API_KEY" \
--data '
{
    "operator_id": "las_asr_pro",
    "operator_version": "v1",
    "task_id": "xxxxx123ef24ea40546c"
}'

返回示例

{
    "metadata": {
        "task_id": "xxxxx123ef24ea40546c",
        "task_status": "COMPLETED",
        "business_code": "0",
        "error_msg": "",
        "request_id": "d204c21f5c7c8f8cfeb85d211b9c20ac"
    },
    "data": {
        "audio_info": {
            "duration": 3575
        },
        "result": {
            "additions": {
                "duration": "3575",
                "language": "zh-CN"
            },
            "text": "参观达*长城。",
            "utterances": [
                {
                    "additions": {
                        "channel_id": "1"
                    },
                    "end_time": 2320,
                    "start_time": 640,
                    "text": "参观达*长城。",
                    "words": [
                        {
                            "confidence": 0,
                            "end_time": 920,
                            "start_time": 640,
                            "text": "参"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1120,
                            "start_time": 920,
                            "text": "观"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1480,
                            "start_time": 1440,
                            "text": "达"
                        },
                        {
                            "confidence": 0,
                            "end_time": 1720,
                            "start_time": 1680,
                            "text": "*"
                        },
                        {
                            "confidence": 0,
                            "end_time": 2080,
                            "start_time": 1880,
                            "text": "长"
                        },
                        {
                            "confidence": 0,
                            "end_time": 2320,
                            "start_time": 2080,
                            "text": "城"
                        }
                    ]
                }
            ]
        }
    }
}
最近更新时间:2026.06.12 18:25:37
这个页面对您有帮助吗?
有用
有用
无用
无用