阿里千问 3 推理模型重磅更新,比肩 Gemini-2.5 pro、o4-mini

2025-07-25 18:25之家网站 - -

7 月 25 日,阿里巴巴全新开源千问 3 推理模型,性能大幅提升,一举夺下「全球最强开源模型」王座,比肩顶级闭源模型 Gemini-2.5 pro、o4-mini。本周阿里已连续开源 3 款重磅模型,分别斩获基础模型、编程模型、推理模型等主流领域的三项全球开源冠军。两天前开源的 AI 编程模型 Qwen3-Coder,更是引爆全球 AI 圈,掀起一波用中国千问开源模型替代闭源模型的新浪潮。

最新推出的千问 3 推理模型,登顶全球最强开源推理模型。自千问 3 旗舰模型 Qwen3-235B-A22B 发布后,阿里通义团队一直在扩展大模型的推理极限,全新开源的千问 3 推理模型在通用能力和深度思考能力上实现巨大飞跃。千问 3 推理模型支持 256K 上下文长度,在知识(SuperGPQA)、编程(LiveCodeBench v6)、数学(AIME25)、人类偏好对齐(Arena-Hard v2)、创意写作(WritingBench)、多语言能力(MultilF)等核心能力上,千问 3 推理模型完全可比肩 Gemini-2.5 pro、o4-mini 等顶尖闭源模型,并创下全球开源模型的最佳性能表现。

在经典基础模型领域,千问 3 全球最强。3 天前开源的 Qwen3-235B-A22B-Instruct-2507(非思考版)新模型,性能显著提升,在 GPQA(知识)、AIME25(数学)、LiveCodeBench(编程)、Arena-Hard(人类偏好对齐)、BFCL(Agent 能力)等众多测评中表现出色,超越 Claude4(Non-thinking)等领先闭源模型。权威 AI 研究机构 Artificial Analysis 指出,“千问 3 是全球最智能的非思考基础模型”。

在 AI 编程领域,新开源的 Qwen3-Coder 被誉为「全球最好的编程模型」。Qwen3-Coder 在代码能力及 Agent 调用能力方面取得重大突破。在多语言 SWE-bench、Mind2Web、Aider-Polyglot 等模型 Agent 能力评估中,Qwen3-Coder 超越 GPT4.1、Claude4 等顶级闭源模型,并登顶全球最大 AI 开源社区 HuggingFace 模型总榜冠军。借助 Qwen3-Coder,刚入行的程序员一天就能完成资深程序员一周的工作,生成一个品牌官网最快只需 5 分钟。

Qwen3-Coder 的开源,引爆硅谷科技圈,在全球 AI 圈掀起一波「AI 编程」热潮。推特创始人杰克・多尔西(Jack Dorsey)、爆火 Agent 应用 Perplexity CEO 阿拉温德・斯里尼瓦斯(Aravind Srinivas)、著名风投公司 a16z 合伙人马克・马斯克罗(Marco Mascorro)等硅谷大咖盛赞 Qwen3-Coder,HuggingFace CEO 克莱门特・德朗格(Clement Delangue)更是连转带发 12 条推文,向全球开发者力荐这一最好的编程模型。海外知名模型 API 聚合平台 OpenRouter 数据显示,阿里千问 API 调用量暴涨,过去几天已突破 1000 亿 Tokens,在 OpenRouter 趋势榜上包揽全球前三,是当下最热门的模型。

截至目前,阿里巴巴已开源 300 余款通义大模型,通义千问衍生模型突破 14 万个,超越 Meta 的 Llama 系列成为全球第一的开源模型家族,通义也是开发者和企业使用最广泛的大模型。未来三年,阿里巴巴还将投入超过 3800 亿元用于建设云和 AI 硬件基础设施,持续升级全栈 AI 能力,为中国和全球开发者和企业提供更先进的模型和云计算服务。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      一大波评论正在路上
        取消发送
        分享成功

        长按关注IT之家公众号
        阅读更多精彩文章

        查看更多原创好文
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享