.hd-box .hd-fr

阿里通义百聆推出语音模型新版本：3 秒录音即可“复制”9 种语言、18 种方言

2025-12-15 16:23IT之家(清源)8评

感谢IT之家网友斯文当不了饭吃的线索投递！

IT之家 12 月 15 日消息，今天下午，通义大模型通过官方公众号宣布，两款“百聆”语音模型正式开源，两款模型迎来升级。根据介绍，其只需 3 秒录音，就能让你的声音无缝切换语种、方言与情绪—— 普通话、粤语、日、英、开心、愤怒……9 种通用语言、18 种方言，通通搞定。

升级

IT之家从官方获悉，本次，Fun-CosyVoice3 大模型完成多项关键升级：

而开源的Fun-CosyVoice3-0.5B模型提供了 zero-shot 音色克隆能力，只需要你提供一段 3 秒以上的参考音频，即可复刻其音色并合成新语音，并且支持本地部署和二次开发。

Fun-ASR 号称能让 AI “听得懂”。其基于数千万小时真实语音数据训练，已在钉钉“AI 听记”、视频会议等场景中大规模落地。官方表示，该模型重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力，并将流式识别模型的首字降低到 160ms。

Fun-CosyVoice3-0.5B 开源地址：

Fun-ASR-Nano-0.8B 开源地址：

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

全球首个气溶胶-气象耦合预报人工智能模型试运行，大幅提升我国西北沙尘天气预报能力

阿里云通义千问开源 Qwen3-VL-30B-A3B 模型：智能体任务等领域媲美 GPT-5-Mini

面壁智能发布语音生成基座“小钢炮”模型 VoxCPM：0.5B 参数号称媲美真人

大家都在买广告

热门评论