.hd-box .hd-fr

阿里云通义千问开源两款语音基座模型,识别效果优于 OpenAI Whisper

2024-07-09 10:17IT之家(沛霖(实习))29评

IT之家 7 月 9 日消息,阿里云通义千问开源了两款语音基座模型 SenseVoice(用于语音识别)和 CosyVoice(用于语音生成)。

SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测,有以下特点:

与开源情感识别模型进行对比,SenseVoice-Large 模型可以在几乎所有数据上都达到了最佳效果,而 SenseVoice-Small 模型同样可以在多数数据集上取得超越其他开源模型的效果。

CosyVoice 模型同样支持多语言、音色和情感控制,该模型在多语言语音、零样本语音生成、跨语言语音克隆和指令跟随等功能方面表现出色。

IT之家附相关链接:

SenseVoice:https://github.com/FunAudioLLM/SenseVoice

CosyVoice:https://github.com/FunAudioLLM/CosyVoice

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论