声影同传功能集成了豆包同声传译模型、多语种字幕、声音复刻及数字人口型等先进技术,可将您直播音频中的人声处理为多语言内容,从而有效提升观众在跨语言、嘈杂或静音环境下的观看体验,帮助您的内容触达更广泛的全球受众。本文介绍如何通过视频直播控制台使用声影同传功能。

该架构图展示了声影同传在直播推流场景下的整体处理流程,主要包括以下几个环节:
沉浸式体验:结合声音复刻与口型同步技术,输出接近真人的配音和面部动作,显著提升视频自然度。
低延迟处理:适配直播场景,提供端到端的低延迟处理体验。
灵活的使用方式:根据使用场景,选择合适的功能。
使用场景 | 推荐功能 | 模式选择 | 说明 |
|---|---|---|---|
为直播提供基础字幕,方便静音或嘈杂环境下观看。 | 原文 ASR 字幕 | 原文 ASR 字幕 | 通过语音识别,在视频画面叠加原文字幕。 |
进行跨语言文字交流,触达全球观众。 | 字幕翻译(即字幕配置) | 声影同传或实时同传 | 通过语音识别,在视频画面叠加翻译字幕,但保留原声音频。 |
提供配音式翻译体验,如同观看译制片。 | 同传声音 | 声影同传或实时同传 | 提供同传声音,并替换原声。实时同传模式下,您可以选择让同传声音与原声叠加,或直接替换原声。 |
追求沉浸式真人翻译体验,提升专业性。 | 同传声音 + 数字人口型 | 声影同传 | 在同传声音的基础上,通过 AI 技术驱动说话人口型与翻译音频同步,效果以假乱真。 |
仅收取声影同传费用。声影同传按同传任务的实际推流时长计费。详见声影同传计费。
注意
仅演示直播 Demo 可免费体验,其他 Demo 模式均会产生相应费用。
声影同传的完整工作流程如下所示。其中涉及两种地址类型:
注意
仅在使用视频直播的推拉流地址时,必须完成该步骤。
AppName 和 StreamName,通过地址生成器生成一对地址,即用作源流地址的拉流地址和推送原始直播流的推流地址。AppName 和 StreamName,通过地址生成器生成一对地址,即用作转推地址的推流地址和拉取新直播流的拉流地址。说明
推送原始直播流的推流地址和拉取新直播流的拉流地址对协议没有明确限制,可根据实际情况选择合适的协议。
完成以下步骤,体验声影同传效果。如果效果符合预期,可通过创建同传任务,实现同传直播。详见创建同传任务。
登录视频直播控制台。
在左侧导航栏,选择声影同传。
单击声影同传 Demo。
按需选择以下任一开播方式。
开播方式 | 说明 |
|---|---|
本地开播 | 适用于通过本地设备(摄像头、麦克风)进行直播的场景。 |
上传视频 | 适用于对已有的本地视频文件(例如录制好的课程、宣传片等)进行声影同传处理的场景。 |
拉取直播流 | 适用于从外部直播源(例如其他直播平台的直播流、CDN 回源流等)拉取内容,并进行声影同传处理的场景。 |
演示直播 Demo | 适用于快速了解和体验声影同传效果的场景。 |
注意
除演示直播 Demo 外,其他开播方式的 Demo 均正常计费,因此,如仅需简单体验效果,建议使用演示直播 Demo。
根据选择的开播方式,配置同传参数。
说明
如选择演示直播 Demo 开播方式,可直接进入预览模式,无需进行以下配置。
配置项 | 适用开播方式 | 说明 | 配置详情 |
|---|---|---|---|
翻译模式 | 本地开播、上传视频、拉取直播流 | 选择声影同传的处理方式,不同模式有不同的效果和延迟。 |
|
语言 | 本地开播、上传视频、拉取直播流 | 选择源语言和目标翻译语言。 注意
|
|
本地设备 | 本地开播 | 选择音视频输入设备。 |
|
本地文件 | 上传视频 | 上传待处理的本地视频文件。 | 选择上传视频,支持 MP4 格式,文件大小不超过 100 MB。 |
拉流地址 | 拉取直播流 | 输入直播流的播放地址。 | 输入 HLS、FLV 或 RTMP 格式的有效直播拉流地址。 说明 地址中不可直接包含多字节编码字符(如中文字符)。如需包含,必须对这些字符进行 URL 编码(URL-encode)。 |
体验时长 | 本地开播、上传视频、拉取直播流 | 选择需要体验功能的时长。 | 选择 10、60 或 120 分钟的体验时长,任务将在所选时长结束后自动停止。 |
单击页面底部的开始体验,开始同传。确保直播内容中包含清晰、稳定的人声音频。
其中,
您可以随时单击页面底部的停止体验,停止同传处理。
注意
由于除演示直播 Demo 外,其他开播方式 Demo 均正常计费,因此,请及时停止体验,以免产生不必要的费用。
在转推时间段内,当您开始推流时,同传任务会自动拉取该直播流进行同传处理,并将经过同传处理的新直播流推送到指定的转推地址,从而实现在转推地址上直播同传处理后的内容。例如,您可以使用 OBS 开播,通过同传任务处理后,在抖音上直播同传处理后的内容。详见我想直播同传处理后的内容,有没有推荐的实现方法?。
完成以下步骤,创建同传任务。
登录视频直播控制台。
在左侧导航栏,选择声影同传。
单击新建任务。
在弹出的页面中,完成以下配置并单击创建。
配置项 | 说明 |
|---|---|
标题 | 任务标题。长度为 1-20 个字符,支持中文、英文大小写字母、数字(0-9)、下划线(_)、中划线(-)。 注意 该标题在所有运行中的任务中必须唯一。 |
转推时间 | 设置任务的开始和结束时间,即任务运行中的时间段。
例如,将转推时间段设置为 3 天,您可以每天直播 2 小时,每场直播均会使用该同传任务配置进行处理,且按实际推流时长 6 小时(3 天 × 2 小时/天)计费。 说明 转推时间跨度最长不可超过 7 天。 |
源流地址 | 从该地址拉取原始直播流,并进行同传处理。支持 RTMP、FLV 格式。 说明 地址中不可直接包含多字节编码字符(如中文字符)。如需包含,必须对这些字符进行 URL 编码(URL-encode)。 |
转推地址 | 同传任务会将经过同传处理的新直播流推送到该地址。支持 RTMP 格式。 说明
|
选择模式 | 按需选择以下模式。
|
播出延迟 | 配置播出延迟时长,以保证同传声音和字幕的翻译处理完成。
说明 如果字幕出现的时间要早于原声或画面,可适当降低播出延迟时长,让字幕与原声或画面对齐,反之亦然。 |
翻译语言/原文语言 |
|
数字人口型 | 是否开启数字人口型功能。开启后,说话人口型将与同传声音同步,提升直播的沉浸感。 说明 此功能仅在声影同传模式下,且已开启同传声音功能时才支持开启。 |
同传声音 | 是否开启同传声音功能。 说明 此功能仅在声影同传和实时同传模式下才支持开启。 开启功能后,完成以下配置。
|
字幕配置 | 是否开启字幕功能。开启后,将在画面上显示字幕。
|
关键词库 | 添加您期望在翻译时保持固定译法的专有词汇,如品牌名、人名或特定术语。系统会严格按照此词库翻译,以确保准确性。 说明
|
热词库 | 添加热词(如产品名、流行语),可以提升语音识别准确率。热词需与原文语言一致,热词之间以空格分隔,输入的总字符数不超过 3 万。 说明 此功能仅在原文 ASR 字幕模式下才支持配置。 |
易错词 | 如果您在设置关键词库或热词库后,仍然存在错译或原文字幕识别错误的情况,可选择配置易错词,包括容易翻错的译文/识别错误的字幕及其纠正后的写法。长度为 1-10 个字符,最多可添加 60 对易错词,建议根据实际效果调整。
|
预览效果 | 按照界面提示,在线测试字幕效果。 说明
|
在同传任务的转推时间段内,使用您的推流工具(如 OBS)等开始推流。确保直播内容中包含清晰、稳定的人声音频。同传任务会自动拉取该直播流进行同传处理,并将经过同传处理的新直播流推送至转推地址。
如果您将经过同传处理的新直播流推送至抖音等第三方平台,则观众可直接在第三方平台观看直播内容。
您也可以通过以下任一方式,使用与转推地址相同AppName 和 StreamName 的拉流地址,拉取经过同传处理的内容。
方式 | 适用场景 | 描述 |
|---|---|---|
第三方拉流工具 | 无 SDK 开发资源。 | 在第三方拉流工具中,配置拉流地址,播放直播流。详见对应的官方文档或咨询官方客服。 |
Web 拉流 SDK | 在 Web 浏览器中观看直播。 | 集成 Web 拉流 SDK,在您的网站或 Web 应用中播放直播流。详见功能集成。 |
客户端拉流 SDK | 在移动端自有 App 中观看直播。 | 集成客户端 SDK,在移动端 App 中播放直播流。详见: |
视频直播控制台 | 用于开发或测试阶段的快速预览和调试。 | 在控制台的 Web 拉流页面,输入拉流地址进行快速播放验证。详见Web 拉流。 说明 仅支持播放 FLV、HLS 或 RTM 流。 |
(可选)在任务列表中单击预览,进入视频预览页面,查看同传处理完成的画面。
您可以随时通过单击开启翻译或关闭翻译来控制同传功能。此操作不会中断转推,因此声影同传仍按实际推流时长计费。
例如,在一场面向国内观众的直播中,您可以在海外嘉宾发言时开启翻译,在其发言结束后再关闭翻译。
注意
以最常见的场景使用 OBS 开播,并将同传处理后的内容在抖音直播为例,为您说明完整流程。
说明
声影同传不限制推流方式,您也可以通过手机等方式开播。此处以 OBS 开播为例。
rtmp 协议头修改为 rtmps。rtmp://push.example.com/live/。说明
如使用 RTMPS 协议推流,确保 OBS 推流地址的协议头已修改为 rtmps。
stream001?volcTime=173562****&volcSecret=ce7***e0b。说明
推流协议无限制,但目前仅支持使用 OBS 推流 RTMP、RTMPS 和 SRT 协议的直播流。
AppName 和 StreamName, 生成 RTMP 或 FLV 协议的拉流地址,作为同传任务的源流地址。声影同传任务与字幕配置的声影同传模式使用相同的翻译模型,翻译效果相同。请根据具体的使用场景,选择合适的模式。
不能。声影同传功能仅支持识别人声内容并翻译,无法根据原文字幕进行翻译。
您可以创建多个声影同传任务,每个任务设置不同的输出语言、相同的源流地址以及不同的转推地址。您可以在播放器的不同语言频道中,拉取不同转推地址的直播流,从而在观众切换不同语言频道时,拉取不同语言的直播流。
不可以。目前暂不支持自动检测直播语言,仅支持根据同传任务配置的输入语言和输出语言进行翻译。此类场景下,建议将输入语言设置为主播主要使用的语言(如中文)。在本例中,仅会将中文内容翻译为英文,而日文歌曲部分则仍保留日文。
不可以。您仅可以在实时同传模式下,通过原声配置来调整原声音量或背景音(非人声)音量。同传处理后的声音音量可由观众自行调整。
可以。在同传处理完成后,任务会生成一个新的直播流。只要您使用视频直播的推流地址作为同传任务的转推地址,就可以对该直播流进行任何常规的处理,例如转码、录制等。
以转码为例,假设转推地址是 rtmp://push.example.com/live/test,操作如下:
push.example.com 所属的域名空间下,使用与转推地址相同的 AppName(live),添加转码配置。push.example.com)隶属于同一个域名空间。AppName(live)和 StreamName(test)。源流推流不稳定,会造成无法播放或播放卡顿的问题。请检查您的源流推流情况。
确保原文(输入)语言与源流音频中的语言一致,译文(输出)语言为观众所需的语言。同时,确保直播内容中包含清晰、稳定的人声音频。
不可以。视频直播暂不支持导出字幕文件。
请逐一排查以下问题:
建议您为每个同传任务配置一个单独的转推地址,以确保直播内容的稳定性和可预测性。
如果您在相近的转推时间段内,为多个不同的同传任务配置相同的转推地址,该转推地址上播放的内容,将是最先成功推流的任务同传处理后的内容。
例如,任务 A 的源流是发布会,任务 B 的源流是电商直播,两个任务的转推地址是同一个抖音平台推流地址。如果任务 B 比任务 A 早成功推流,那么对应的抖音直播间里将播放电商直播。