音频评分(Audiobox Aesthetics) | | - 音频评分算子 - 使用 audiobox_aesthetics 对音频进行质量评分
- 核心功能
- 使用 audiobox_aesthetics 模型对音频片段进行质量评分
- 提供四个评分维度:CE (连贯性/听感投入度)、CU (清晰度/可懂度)、PC (制作质量/构成质量)、PQ (感知质量/主观音质)
- 支持本地和远程 (tos://) 音频文件
- 适用于音频质量评估、音频筛选、质量控制等场景
|
音频静音检测 | | - 音频静音检测处理器,智能识别音频是否为完全静音
- 核心功能:
- 静音检测:分析整个音频文件,判断是否为静音
- 可配置阈值:支持自定义静音检测的敏感度阈值(dB)
- 高效处理:优化的音量分析算法,处理速度快
- 精确分析:通过专业音量检测技术判断静音状态
- 支持本地文件、HTTP/HTTPS URL和TOS/S3存储
|
音频文件大小计算 | | - 音频文件元数据分析处理器,精确计算文件大小
- 核心功能
- 精确计算音频文件字节大小
- 支持本地文件与TOS存储
- 轻量高效,适合批量处理
|
多语言 CTC 对齐 | | - “多语言 CTC 对齐算子”是一个基于 MMS Forced Aligner 模型的多语言音频 CTC 对齐算子(CTC,Connectionist Temporal Classification 的简称),旨在将音频内容与对应的文本脚本在时间维度上精确对齐。
- 核心功能
- 支持多语言输入:原生支持中文、英文的文本对齐,满足主流语种处理需求。
- 支持多渠道输入:无缝处理来自本地文件路径、HTTP URL、TOS/S3 对象存储或原始字节流的音频数据。
- 自动化预处理:内置针对中英文的文本预处理流程,包括大小写转换、数字展开、拼音转换及罗马化,以适应模型输入要求。此外,内置音频解码和预处理能力,自动将输入音频重采样为 16kHz 采样率的单声道格式,简化了调用流程。
|
音频滤镜处理 | | - 音频滤镜处理器,基于 FFmpeg 的灵活音频效果应用。
- 核心功能:
- 通过 FFmpeg 应用常见音频滤镜(volume、highpass、lowpass、bass、treble、aecho 等)
- 支持本地路径与 TOS/S3 远程路径自动下载与处理
- 支持将处理结果上传到 TOS,或返回二进制结果
|
音频格式转换(离线) | | - 音频格式转换处理器
- 核心功能:
- 支持音频格式转换(WAV、MP3、FLAC)
- 自动选择合适的编码器
- 通过extra_params支持自定义ffmpeg参数
- 支持本地文件、HTTP/HTTPS URL和TOS/S3存储
|
音频时长计算 | | - 音频时长分析处理器,精确计算音频内容时长
- 核心功能
- 精确计算音频时长(秒级精度)
- 支持本地文件、TOS存储与二进制
- 基于librosa专业音频处理库
|
音频片段切分(时间戳) | | - 音频时间戳切分处理器,支持精准片段提取。
- 核心功能
- 基于时间戳精确切分音频
- 支持多输入格式:
- 本地文件路径
- TOS存储路径
- 二进制数据流
- 支持片段二进制输出或TOS存储
|
音频转MP3 | | - 音频格式转换处理器,将各种音频格式转换为MP3
- 核心功能:
- 支持多种音频格式转换为MP3
- 音频质量和编码参数自定义
- 支持音频采样率、比特率精细控制
- 自动选择第一个音轨
- 支持本地文件、HTTP/HTTPS URL和TOS/S3存储
|
音频信噪比计算 | | - 音频信噪比(SNR)计算器,基于非负矩阵分解(NMF)进行信号-噪声分离
- 核心功能:
- 对音频进行 STFT 频谱分析;
- 使用 NMF 将频谱分解为信号与噪声分量;
- 基于重建的时域信号与噪声估计能量比值,计算 SNR(单位 dB)。
|
音频拼接 | | - 音频拼接处理器,支持将多个音频文件拼接成一段音频
- 核心功能
- 支持拼接多个音频文件为一个音频
- 支持多输入格式:
- 本地文件路径
- TOS/S3存储路径
- HTTP/HTTPS路径
- 支持输出到指定路径
- 自动处理不同采样率和声道的音频
- 自动根据输出格式选择合适的编码器
|
音频快速拼接(同源) | | - 音频快速拼接处理器(同源音频)
- 核心功能
- 使用 concat demuxer 快速拼接同源音频(无需重编码)
- 适用于格式、编码、采样率完全相同的音频文件
- 速度快,无质量损失
- 支持多输入格式:
- 本地文件路径
- TOS/S3存储路径
- HTTP/HTTPS路径
- 支持输出到指定路径
|
音频元数据提取 | | - 音频元数据提取算子
- 功能:
- 支持音频文件格式
- 提取完整的音频元数据信息,包括:
- 基础信息: 时长、格式、比特率
- 音频信息: 采样率、声道数、编码器
- 使用 ffprobe 工具进行元数据提取
- 支持本地文件、远程文件(TOS/S3)、HTTP/HTTPS链接
|
音频降噪(MossFormer2_SE_48K) | | - 使用MossFormer2_SE_48K进行音频降噪
- 核心功能
- 使用MossFormer2_SE_48K进行音频降噪
- 支持本地文件、TOS存储(tos,s3,http,https等schema)
|
音频片段切分(时长) | | - 音频按时长切分,支持按固定时长分割音频片段
- 核心功能
- 按指定时长切分音频为多个片段
- 支持多输入格式:
- 本地文件路径
- TOS/S3存储路径
- 二进制数据流
- 支持片段二进制输出或TOS存储
- 支持最小片段时长过滤
|
音频质量评分(DNSMOS) | | - 音频质量评分模块 - 使用 DNSMOS 模型评估音频质量
- 核心功能
- 使用 DNSMOS (Deep Noise Suppression Mean Opinion Score) 模型进行音频质量评估
- 提供整体质量 (OVRL)、信号质量 (SIG)、背景噪声 (BAK) 三个维度的评分
- 评分范围在 1 到 5 之间,分数越高表示音频质量越好
- 支持自动采样率转换和音频预处理
- 适用于语音质量评估、音频筛选、质量控制等场景
|
音频提取与切分(LAS) | | - 音频提取与切分(LAS)算子,基于 LAS 音频提取与切分服务,从音频/视频中提取音频并按规则切分
- 核心功能:
- 从音频或视频中提取音频
- 支持按时长切分多个片段
- 支持输出格式与路径模板
- 支持批量并发处理
|
语音质量评分(SpeechScore) | | - 音频语音质量评估算子 - 基于 ClearerVoice-Studio/speechscore 计算多项音频质量指标
- 核心功能
- 统一封装 SpeechScore,支持无参考与有参考两类指标
- 可通过参数
metrics 配置计算指标集合,默认计算全部支持指标 - 支持本地/TOS/HTTP/S3 路径输入;参考音频列
reference_audio_paths 可选 - 输出为结构化结果,包含 BSSEval、DNSMOS、NISQA、PESQ、STOI、SNR、SRMR 等常见指标
|
音频格式转换(LAS) | | - 音频格式转换(LAS)算子,基于 LAS 音频格式转换服务,将输入音频转换为指定格式
- 核心功能
- 支持多种音频格式之间的转换
- 支持指定输出格式与FFmpeg参数
- 支持批量并发处理
- 适用于音频格式标准化与转码场景
|