.hd-box .hd-fr

阿里云栖大会一口气发布千问 3-VL、万相 2.5 等六大模型 + 通义百聆新品牌,覆盖文本、视觉、语音、视频、代码、图像全场景

2025-09-24 13:58IT之家(问舟)20评
感谢IT之家网友软媒用户1369491西窗旧事的线索投递!

IT之家 9 月 24 日消息,在今日的 2025 云栖大会上,阿里集团董事兼 CEO 吴泳铭表示,积极推进 3800 亿 AI 基础设施建设,并计划追加更大投入。会上,阿里推出了 6 款新模型 + 1 个全新品牌:

其中,通义千问 Qwen-MAXQwen3-Omni、 Qwen-Image-Edit-2509 此前已有报道。

至于其余模型,Qwen3-VL 是一款真正实现“看懂世界、理解事件、做出行动”的视觉理解模型,支持 2 小时视频精确定位(如“第 15 分钟穿红衣者做了什么”),OCR 语言从 19 种扩展至 32 种,生僻字、古籍、倾斜文本识别率显著提升;原生支持 256K 上下文,可扩展至 100 万 token,适配超长视频与文档分析。

本次发布重点强化以下能力:

Qwen-Image 是开源图片编辑专家,本次也迎来全新升级,新版本支持多图参考编辑,强化人脸、商品、文字 ID 一致性,并原生集成 ControlNet,实现“改字不崩脸、换装不走样”的工业级稳定性,满足电商、设计、广告等高要求场景。

本次升级核心亮点:

Qwen3-Coder 上下文代码专家本次迎来能力升级,通过 Agentic Coding 联合训练优化,TerminalBench 分数大幅上涨,在 OpenRouter 平台一度成为全球第二流行的 Coder 模型(IT之家注:仅次于 Claude Sonnet 4)。支持 256K 上下文,可一次性理解并修复整个项目级代码库,推理速度更快、Token 消耗更少、安全性更高,被开发者誉为“可一键修复复杂项目的负责任 AI”。

本次升级核心亮点:

通义万相 Wan2.5-Preview 音画同步创意引擎首次原生支持音画同步,全面提升视频生成、图像生成、图像编辑三大核心能力,满足广告、电商、影视等商业级内容生产需求。

视频生成 —— 会“配音”的 10 秒电影:

文生图 —— 能“写字”的设计大师:

图像编辑 —— “改字不崩脸”的工业级修图:

通义百聆是通义实验室推出的全新品牌,是一款企业级语音基座大模型,整合了领先的 Fun-ASR 语音识别大模型与 Fun-CosyVoice 语音合成大模型,致力于攻克复杂环境下的语音落地应用难题。

Fun-ASR 语音识别大模型专治语音识别中的“幻觉输出”“串语种”“热词失效”三大行业痛点。通过首创的 Context 增强架构(CTC+LLM+RAG),幻觉率从 78.5% 降至 10.7%,基本根治串语种问题。

支持热词动态注入与跨语种语音克隆,行业术语 100% 准确召回。Fun-CosyVoice 语音合成大模型采用创新性的语音解耦训练方法,大幅提升音频合成效果,并支持跨语种语音克隆。核心能力速览:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论