.hd-box .hd-fr

阿里云栖大会一口气发布千问 3-VL、万相 2.5 等六大模型 + 通义百聆新品牌，覆盖文本、视觉、语音、视频、代码、图像全场景

2025-09-24 13:58IT之家(问舟)20评

感谢IT之家网友软媒用户1369491、西窗的线索投递！

IT之家 9 月 24 日消息，在今日的 2025 云栖大会上，阿里集团董事兼 CEO 吴泳铭表示，积极推进 3800 亿 AI 基础设施建设，并计划追加更大投入。会上，阿里推出了 6 款新模型 + 1 个全新品牌：

Qwen MAX：万亿参数大模型，Coding 与工具调用能力登顶国际榜单；
Qwen3-Omni：新一代原生全模态大模型，真正实现“全模态不降智”；
Qwen3-VL：Agent 和 Coding 能力全面提升，真正“看懂、理解并响应世界”；
Qwen-Image：再升级！真正实现“改字不崩脸、换装不走样”；
Qwen3-Coder：256K 上下文修复项目，TerminalBench 分数大幅提升；
Wan2.5-Preview：音画同步视频生成，图像支持科学图表与艺术字；
通义百聆：企业级语音基座大模型，攻克企业落地语音模型的“最后一公里”；

其中，通义千问 Qwen-MAX、Qwen3-Omni、 Qwen-Image-Edit-2509 此前已有报道。

至于其余模型，Qwen3-VL 是一款真正实现“看懂世界、理解事件、做出行动”的视觉理解模型，支持 2 小时视频精确定位（如“第 15 分钟穿红衣者做了什么”），OCR 语言从 19 种扩展至 32 种，生僻字、古籍、倾斜文本识别率显著提升；原生支持 256K 上下文，可扩展至 100 万 token，适配超长视频与文档分析。

本次发布重点强化以下能力：

视觉智能体：可操作电脑和手机界面，识别 GUI 元素、理解按钮功能、调用工具并执行任务，在 OS World 等评测中达到世界顶尖水平；
可视化编程：看到 UI 设计图或流程图，可直接生成 HTML / CSS / JS 代码或Draw.io图表，大幅提升产品与开发协作效率；
空间感知与 3D Grounding：支持判断物体方位、视角变化与遮挡关系，为具身智能、机器人导航、AR / VR 等场景提供底层支持；
超长视频理解与行为分析：不仅能理解 2 小时视频内容，还能精准回答“第 15 分钟穿红衣者做了什么”“球从哪个方向飞入画面”等时序与行为问题；
Thinking 版本强化 STEM 推理：在 MathVista、MathVision、CharXiv 等评测中达 SOTA 水平，可精准解析科学图表、公式与文献图像；
视觉感知全面升级：优化预训练数据，支持“万物识别”—— 从名人、动漫角色、商品、地标到动植物，覆盖生活与专业场景；
多语言 OCR 与复杂场景支持：语言扩展至 32 种，复杂光线、模糊、倾斜文本识别更稳定，生僻字、古籍字、专业术语召回率显著提升；
安防感知与风险预警：在家庭、商场、街区、道路等真实场景中，对风险人物与事件的检测准确率达到行业领先水平；
长上下文原生支持：256K 起步，可扩展至 100 万 token，支持整本教材、数小时会议录像的全程记忆与精准检索。

Qwen-Image 是开源图片编辑专家，本次也迎来全新升级，新版本支持多图参考编辑，强化人脸、商品、文字 ID 一致性，并原生集成 ControlNet，实现“改字不崩脸、换装不走样”的工业级稳定性，满足电商、设计、广告等高要求场景。

本次升级核心亮点：

多图编辑支持：对于多图输入，Qwen-Image-Edit-2509 基于 Qwen-Image 基模，不仅能够处理各种单图编辑场景，而且全新支持了多种多图编辑场景，提供“人物 + 人物”，“人物 + 商品”，“人物 + 场景”等多种新玩法。
单图编辑一致性增强：对于单图编辑场景，Qwen-Image-Edit-2509 相比之前，显著提高了各个维度的一致性，主要体现在以下方面：

人物编辑一致性增强：增强人物 ID 保持，支持各种风格肖像、姿势变换；
商品编辑一致性增强：增强商品 ID 保持，支持各种商品海报编辑；
文字编辑一致性增强：除了支持文字内容修改外，还支持多种文字字体、色彩以及材质编辑；

原生支持 ControlNet：支持包括深度图、边缘图、关键点图等引导信息。

Qwen3-Coder 上下文代码专家本次迎来能力升级，通过 Agentic Coding 联合训练优化，TerminalBench 分数大幅上涨，在 OpenRouter 平台一度成为全球第二流行的 Coder 模型（IT之家注：仅次于 Claude Sonnet 4）。支持 256K 上下文，可一次性理解并修复整个项目级代码库，推理速度更快、Token 消耗更少、安全性更高，被开发者誉为“可一键修复复杂项目的负责任 AI”。

本次升级核心亮点：

Agentic Coding 联合训练：与 Qwen Code 或 Claude Code 联合优化，在 CLI 应用场景效果显著提升；
项目级代码理解：256K 上下文支持，可处理跨文件、多语言的复杂项目；
推理效率优化：相比上代模型，推理速度更快，用更少 Token 达成更优效果；
代码安全性提升：强化漏洞检测与恶意代码过滤，迈向“负责任的 AI”；
多模态输入支持：搭配 Qwen Code 系统，支持上传截图 + 自然语言指令生成代码，全球领先。

通义万相 Wan2.5-Preview 音画同步创意引擎首次原生支持音画同步，全面提升视频生成、图像生成、图像编辑三大核心能力，满足广告、电商、影视等商业级内容生产需求。

视频生成 —— 会“配音”的 10 秒电影：

原生音画同步：视频自带人声（多人）、ASMR、音效、音乐，支持中文、英文、小语种及方言，画面与声音严丝合缝；
10 秒长视频生成：时长提升 1 倍，最高支持 1080P 24fps，动态表现力与结构稳定性大幅提升，叙事能力跃升；
指令遵循提升：支持复杂连续变化指令、运镜控制、结构化提示词，精准还原用户意图；
图生视频保 ID 优化：人物、商品等视觉元素一致性显著提升，商业广告与虚拟偶像场景可用；
通用音频驱动：支持上传自定义音频作为参考，搭配提示词或首帧图生成视频，实现“用我的声音讲你的故事”。

文生图 —— 能“写字”的设计大师：

美学质感提升：真实光影、细节质感表现力增强，擅长不同艺术风格与设计质感还原；
稳定文字生成：支持中英文、小语种、艺术字、长文本、复杂构图精准渲染，海报 / LOGO 一次成型；
图表直接生成：可输出科学图表、流程图、数据图、架构图、文字内容表格等结构化图文；
指令遵循提升：复杂指令精细化理解，具备逻辑推理能力，可精准还原现实 IP 形象与场景细节。

图像编辑 —— “改字不崩脸”的工业级修图：

指令编辑：支持丰富编辑任务（换背景 / 改颜色 / 加元素 / 调风格），指令理解精准，无需专业 PS 技能；
一致性保持：支持单图 / 多图参考垫图，人脸、商品、风格等视觉元素 ID 强保持，编辑后“人还是那个人，包还是那个包”。

通义百聆是通义实验室推出的全新品牌，是一款企业级语音基座大模型，整合了领先的 Fun-ASR 语音识别大模型与 Fun-CosyVoice 语音合成大模型，致力于攻克复杂环境下的语音落地应用难题。

Fun-ASR 语音识别大模型专治语音识别中的“幻觉输出”“串语种”“热词失效”三大行业痛点。通过首创的 Context 增强架构（CTC+LLM+RAG），幻觉率从 78.5% 降至 10.7%，基本根治串语种问题。

支持热词动态注入与跨语种语音克隆，行业术语 100% 准确召回。Fun-CosyVoice 语音合成大模型采用创新性的语音解耦训练方法，大幅提升音频合成效果，并支持跨语种语音克隆。核心能力速览：

幻觉率大幅下降：通过 Context 增强架构，将 CTC 初筛结果作为 LLM 上下文，幻觉率从 78.5% 降至 10.7%，输出更稳定可靠；
彻底解决串语种问题：CTC 解码文本输入 LLM Prompt，极大缓解英文录音输出中文等“自动翻译”现象；
强定制化能力：引入 RAG 机制动态注入术语库，支持人名、品牌、行业黑话（如“ROI”“私域拉新”）精准识别，5 分钟完成配置；
跨语种语音克隆：采用多阶段训练方法，一个音色可说遍全球，声音相似度行业领先；
行业场景全覆盖：基于数千万小时真实音频训练，覆盖金融、教育、制造、互联网、畜牧等 10+ 行业，深入产业一线。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，分享赚金币换豪礼

阿里云通义千问

参数超万亿：阿里发布通义千问最强 AI 大模型 Qwen3-Max 正式版，性能全面领先

阿里通义深夜炸场：全球首个端到端全模态 AI 模型 Qwen3-Omni 发布开源，文本、图像、音视频全统一

阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列：改进混合注意力机制、高稀疏度 MoE 结构

大家都在买广告

热门评论

查看更多评论