.hd-box .hd-fr

阿里通义百聆推出语音模型新版本:3 秒录音即可“复制”9 种语言、18 种方言

2025-12-15 16:23IT之家(清源)8评
感谢IT之家网友斯文当不了饭吃的线索投递!

IT之家 12 月 15 日消息,今天下午,通义大模型通过官方公众号宣布,两款“百聆”语音模型正式开源,两款模型迎来升级。根据介绍,其只需 3 秒录音,就能让你的声音无缝切换语种、方言与情绪—— 普通话、粤语、日、英、开心、愤怒……9 种通用语言、18 种方言,通通搞定。

升级

开源

IT之家从官方获悉,本次,Fun-CosyVoice3 大模型完成多项关键升级:

而开源的Fun-CosyVoice3-0.5B模型提供了 zero-shot 音色克隆能力,只需要你提供一段 3 秒以上的参考音频,即可复刻其音色并合成新语音,并且支持本地部署和二次开发。

Fun-ASR 号称能让 AI  “听得懂”。其基于数千万小时真实语音数据训练,已在钉钉“AI 听记”、视频会议等场景中大规模落地。官方表示,该模型重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力,并将流式识别模型的首字降低到 160ms。

Fun-CosyVoice3-0.5B 开源地址:

Fun-ASR-Nano-0.8B 开源地址:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论