.hd-box .hd-fr

阿里通义深夜炸场:全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源,文本、图像、音视频全统一

2025-09-23 09:05IT之家(问舟)65评
感谢IT之家网友软媒用户1053564Snailwang的线索投递!

IT之家 9 月 23 日消息,又是熟悉的深夜,阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像编辑工具的 Qwen-Image-Edit-2509。

Qwen3-Omni 是业界首个原生端到端全模态 AI 模型,能够处理文本、图像、音频和视频多种类型的输入,并可通过文本与自然语音实时流式输出结果,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。

Qwen3-Omni 是原生端到端的多语言全模态基础模型,其核心特性主要包括:

IT之家附官方地址:

TTS 即文本转语音,阿里云此次发布的 TTS 支持 17 种音色选择,每一种音色均支持 10 种语言。其中不仅包含多国语言,有:普通话、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语;还支持了更多中国方言:闽南语、吴语、粤语、四川话、北京话、南京话、天津话和陕西话。

此外,Qwen3-TTS-Flash 在多项评估基准上均取得了 SoTA 的表现,超越 SeedTTS、MiniMax、GPT-4o-Audio-Preview、Elevenlabs,特别是在语音稳定性和音色相似度。

延迟对比Qwen3-TTS-FlashQwen-TTS
并发数双卡 12 并发双卡 6 并发
首包延迟(单并发)97ms200ms
首包延迟(满并发)420ms733ms
首包大小(满并发且越大越好)320ms190ms
RTF(单并发)0.300.43
RTF(满并发)0.510.72

官方地址:

Qwen-Image-Edit-2509 是 Qwen-Image 月度迭代升级版本,和字节前几天发布的即梦 4.0 图像模型一样主要是一致性上巨大提升。

与 8 月份发布的 Qwen-Image-Edit 相比,Qwen-Image-Edit-2509 的主要改进包括:

官方地址:

另外,Qwen3-Next-80B-A3B-Instruct-FP8Qwen3-Next-80B-A3B-Thinking-FP8也已经开源:

相关阅读:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论