腾讯音乐：AIGC音频质量保卫战，从标准到工具的突围

海量样本来袭: AI生成音频导致样本量激增，从传统几十首到单批次上千首，给质量评估带来巨大压力。
评估维度缺失: 传统音频关注基础质量，而AIGC音频需要新的、多维度的评估体系，传统方法已不再适用。
算法迭代闭环: 算法持续迭代优化，需要建立有效的评估-优化闭环流程，以衡量和提升质量效率。

腾讯音乐娱乐（TME）在AI大模型时代面临AIGC音频质量保障的巨大挑战，主要源于海量样本的涌现及传统评估维度的不足。为此，TME构建了一套全面的质量保障体系，通过重塑评测标准、结合主客观评测方法及开发定制化工具，以确保AI生成音频的质量与用户体验。

ERes2NetV2架构: 针对歌声数据音高跨度大、谐波复杂度高等特性，通过多尺度特征融合（层级式膨胀卷积组、跨层级特征聚合与门控注意力机制）和歌声数据适配（将原始80维Mel频谱扩展至96维）来捕捉频谱细节与全局语义。
AI评价模型: 针对AI生成音频质量评价，采用CNN编码器（强化音高轮廓捕捉、新增谐波增强模块）、Transformer编码器（12层，时序建模、多尺度窗口注意力）和MLP决策头进行四维分数计算。