电梯、地库里通话不卡顿，腾讯主导新一代实时语音编码行业标准 AVS3P10 即将发布

2024-06-27 14:57IT之家 - 汪淼

IT之家 6 月 27 日消息，腾讯今日宣布，该公司主导的新一代实时语音编码行业标准 AVS3P10 完成定稿，即将正式对外发布。

此次 AVS 音频组 AVS3P10 标准采纳了腾讯侧方案，以腾讯会议首款自研神经网络语音编解码器 Penguins AI 语音引擎为原型，可提升弱网环境下的通话质量。

腾讯介绍称，这是全球首个系统性引入人工智能并实现低码率下高质量语音编码标准，表现达到国际一流水准。仅需 1/3 的编码码率，就能实现和现有主流标准同等清晰的音质。“即使网络卡如 2G，也能顺畅开会”。

该标准由腾讯提议启动、推进和维护，经过 AVS 音频组多家成员单位共同贡献。“今后在线上会议、语音通话等实时音频场景，带宽要求大幅降低。即使在电梯、地库、隧道等网络很差的环境，也能实现清晰流畅的语音通话。”

据介绍，在有限的带宽条件下，想要将声音高质量传递到接收方，压缩原始数据、去除冗余信息的语音编码技术是其中关键。然而，基于 EVS、OPUS 等现有主流音频编解码标准，当码率降低到 10kbps 以下时，语音质量下降明显，影响用户体验。

为应对该挑战，腾讯会议天籁实验室联合腾讯 AI Lab 自研了腾讯首款神经网络语音编解码器 ——Penguins。

具体来说，Penguins 将 AI 与传统技术融合，打破传统香农定律的性能极限，引入大数据并在可控算力增量下提供了新的性能上界，从而对下一代通信系统，尤其是信源编码器部分，提供了新的技术基础和方法论。通过 AI 语音信号建模，提取最核心的特征参数编码，再借助深度学习网络，预测并重建语音中的细微结构，最终生成逼真的音频波形。
多方测试表明，腾讯提交的 AVS3P10 标准实现了 6kbps 下的高质量语音通信，即使在“2G”网络下也能实现清晰通话，且主观质量非常接近原始参考信号，媲美国际主流的 OPUS 标准在 20kbps 的质量。同时，主观质量对标传统编码的中高码率情况下，编码效率提升 200-300%。

2021 年起，Penguins 音频编码器就在腾讯会议的驾驶模式、弱网模式及 QQ 语音通话等场景中投入规模应用。

2023 年 3 月，腾讯团队在 AVS 音频组提议并参与标准制定，即 AVS3P10 实时语音编码标准。随后，腾讯提交基于 Penguins 的候选技术；经过 AVS 音频组交叉验证后采纳。2024 年 6 月，AVS3P10 实时语音编码标准正式完成标准化工作，进入公示阶段。

IT之家注：从 2002 年 6 月我国成立 AVS 工作组开始，十多年来上千人的团队努力，我国自主知识产权的 AVS 应运而生。AVS3 是全球首个已推出的面向 8K 及 5G 产业应用的视频编码标准。

AVS 国际组长郑建铧此前透露，AVS 已经启动 AVS4 的标准制定，并呼吁 AVS 成员单位继续支持 AVS 下一代标准开发工作，各个厂商联合起来，一起实现技术标准共同出海，推动全球化部署。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。