丨智能时代

.hd-box .hd-fr

选 AI 比选对象还难！“起名黑洞”OpenAI 的新模型，到底怎么选？

2025-04-21 13:38新智元(新智元)0评

一句话看懂：o3 以深度推理与工具调用能力领跑复杂任务，GPT-4.1 超长上下文与精准指令执行适合 API 开发，而 o4-mini 则堪称日常任务的「性价比之王」。

如果你最近关注 AI 新闻，可能会被各种层出不穷的新模型搞得眼花缭乱。

尤其是堪称「起名黑洞」的 OpenAI，命起名来可谓是毫无章法。

即便是 AI 圈的资深团队，在面对同时发布的 o3、o4-mini、GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 时，也是蒙圈的。

为了解决这个困扰，来自 Every 和 DataCamp 的团队在经过反复测试、来回切换模型，折腾了很多提示词后，得出了以下结论：

o3：OpenAI 最新的旗舰模型，也是最会「深度思考」的选手 —— 专为自主复杂推理与工具调用设计。
o4‑mini：效率发动机 —— 速度快、价格低，对数学、视觉推理和成本敏感型开发任务表现惊人。它不是明星旗舰，也不是基准霸主，但凭借效率优势，完全可以承担一般的任务。
GPT‑4.1：API 专用的主力干将 —— 指令遵循严谨，长上下文记忆出众。

接下来，看看这三款模型的新特性、各自擅长什么，以及在 Every 团队的工作流中，它们实际表现如何。

o3——OpenAI 最强推理模型

o3 是 OpenAI 最新的前沿模型，旨在提升其在编码、数学、科学与视觉感知等复杂任务上的推理能力。

它也是首个具备自主工具调用能力的推理模型，可使用搜索、Python、图像生成以及图像解读等工具来完成任务。

凭借这一能力，就让它在针对现实世界问题求解的高级基准测试中表现出色，而此前的模型往往难以胜任。

OpenAI 特别强调了 o3 相较于 o1 的显著提升，并将其定位为迄今为止功能最强、适用面最广的模型。

o3 不只是像 GPT‑4o 那样会用工具、能看图 —— 它还能把这些工具和图像融入自己的推理过程。

o3 的优势

・工具调用

o3 既懂得如何使用单个工具，也知道如何把多种工具串联起来，并在关键时刻切换方案。

假设你上传一张月度销售图表，它可能先用 OCR 提取数据，再写 Python 代码计算同比增长，随后检索行业基准为结果提供背景 —— 一气呵成。

在单条回复中，它最多可调用 600 次工具，边执行边自我优化；一旦出现问题，也能迅速调整方向。就像一位自驱的分析师，随身携带瑞士军刀，而且知道什么时候该用哪一把刀。

・视觉推理

o3 会带着真实语境去深度解析图像。其他模型也许只会说「这是一幅描绘女性的画」，而 o3 会放大画角，读出画家签名，查出画作悬挂的博物馆，并为你讲述其所属艺术流派的历史。

o3 的技术创新

性能大幅跃升绝非偶然。OpenAI 团队通过多项突破，才拿出了如此漂亮的成绩单：

・扩展强化学习

OpenAI 发现，只要在强化学习阶段提升算力投入，模型效果就能显著提升，这与 GPT 系列在监督预训练里的「越算越强」规律如出一辙。不同的是，此时的 o3 并非优化「下一词预测」，而是通过最大化强化学习奖励来学习，且常在工具增强环境中训练。

实质上，OpenAI 把强化学习当成了「放大版预训练」：训练更久、用更多算力，结果也更好。由此解锁了长期规划与序列推理等能力，例如竞技编程、多步数学证明。再配合工具调用，性能增益更加明显。

・动态视觉推理

o3 在视觉推理上同样大幅跃进。它不仅能理解图片，还把图像直接纳入推理循环 —— 解释、操作、反复查看都不在话下。因而在科学图表、数学示意图，甚至通过照片排定日程等任务上表现突出。

核心做法是：在整个推理过程中始终保留原图。

与传统「生成文本描述后就丢图」的做法不同，o3 可借助工具随时放大、旋转、重看图像任意区域，使推理更灵活，也能处理更凌乱的视觉输入，如模糊白板、手绘草图或会议日程照片。

举个例子，OpenAI 让 o3 读取一张低清晰度的演出排期照片，并规划一份在每场活动之间留出 10 分钟休息的行程 —— 既要解析视觉布局，又得实时应用约束条件。

比如，给 o1 看一幅粗糙草图，问「这将绘制哪种分形？」——o1 答错了；而 o3 直接命中了「龙形曲线」。

虽然只是小测试，但结果令人惊喜，因为我们并未提供太多线索。

・更优成本效率

更令人意外的是，o3 的性价比也更高：在相同推理成本下，它交出了更好的成绩。这或许得益于架构级优化，提高了 Token 吞吐量并降低了延迟。

自 Deepseek‑R1 以 ChatGPT 仅几分之一的成本取得高性能以来，成本一直是热门话题，而 o3 的表现显然再次推高了业界预期。

o4‑mini—— 小巧、敏锐，却实力惊人

o4‑mini 是 OpenAI o 系列推理模型的最新成员。

它针对速度、低成本以及工具增强推理能力进行了优化，提供 200 000 Token 的上下文窗口，并可输出最多 100000 个 Token，性能与 o3、o1 相当。

在工具层面，o4‑mini 兼容 Python 执行、网页浏览和图像输入，可接入 OpenAI 的标准接口（包括 Chat Completions 和 Responses）。支持流式输出、函数调用及结构化输出，但暂不支持微调和嵌入（Embeddings）。

o4‑mini 兼顾「量」和「质」：面向普通用户的每日消息上限达 150 条，而 o3 的上限是每周 50 条；在数学、编程和高视觉负载任务上，它以更快速度、极低成本，达到接近 o3 的性能。

虽然 o3 仍然是 OpenAI 最强的推理模型，但 o4‑mini 可以使用十分之一不到的费用获得 o3 大部分的性能。

o4‑mini 的优势

・体积虽小，威力十足

要分析海量数据，或汇总凌乱的研究表格？o4‑mini 轻松应对 —— 筛选洞见、编写结构化查询语言（SQL）、检索数据，并将结果绘制成可交互图表。

o3 也许要十几步推理、付出不菲的 token 成本，而 o4‑mini 直截了当，给你既简洁又合理的答案。

・工具齐全，算力更省

o4‑mini 提供与 o3 同级别的完整工具箱，包括 Python、网页浏览、图像分析与生成等。

生成分析报告时，它可以一次完成：拉取 CSV，用 Python 清洗并制图，上网查找行业宏观数据进行对比，最后输出 Markdown 报告；整个过程无需承担 o3 的计算开销。

o4‑mini 与 o4‑mini‑high

打开 ChatGPT 应用，你会发现有 o4‑mini 和 o4‑mini‑high 两种选择。

顾名思义，o4‑mini‑high 就是通过更多推理算力的投入，来换取更佳表现。

这意味着 o4‑mini‑high 相比于 o4‑mini：

会在内部花费更多时间处理每个提示词；
通常能生成更高质量的输出，尤其是多步任务；
但响应速度更慢，且可能消耗更多 Token。

如果你更看重速度，o4‑mini 或许更合适。若任务需要复杂推理（尤其涉及代码或视觉输入）、更长上下文，或对精度要求极高，那么 o4‑mini‑high 更有可能给出更好的结果。

实测表现

接下来，对 o4‑mini 分别在数学和编码场景下进行测试。

・数学

首先，给它一道看似简单、却常常难住语言模型的计算题。

目的不是测它的基础算术，而是想看看它会如何解题：一步步推理，还是调用像计算器这样的工具。

第一次回答错了。于是，直接提醒它要使用计算器。

第二次虽然算对了，但仍有两个问题：

它把答案称为「约等于」，可这道减法题根本不用任何估算。
从推理过程能看出它并未真正调用计算器，尽管输出里写着「计算器显示」，这与实际计算方式不符。更离谱的是，它还去搜了网页，而这种基础题完全无需联网查询。

随后又给了它一道更有挑战性的数学题，这回表现就稳多了。

模型反应迅速，用一小段 Python 脚本就解出了答案，而且还能在思维链里直接看到代码。能把代码公开为推理过程的一部分，确实相当实用。

・生成p5.js游戏

在这个测试中，选用算力更高的 o4‑mini‑high。

提示词：给我做一款引人入胜的无尽跑酷游戏。关键操作说明显示在屏幕上。p5.js场景，不要 HTML。我喜欢像素风恐龙和有趣的背景。

第一次生成的结果：

有些地方我想调整，于是再次进行提示：

画一只更像样的恐龙 —— 那东西一点也不像恐龙。
让玩家按下任意键再开始游戏 —— 不要一启动就自动开始；同时确保所有操作说明仍然显示在屏幕上。
游戏结束后，让玩家可以重新尝试。

第二次生成的结果：

这次好多了，但这只「恐龙」看起来还是像一台老式电影摄像机。

GPT‑4.1—— 为精准而生，不为「氛围」服务

目前 GPT‑4.1 只通过 API 向开发者开放，目标是以毫不妥协的精准度执行细致入微的指令。

它没有 4.5 等前辈那种「梦幻」气质，却更加结构化、可靠且一致。可以把它当作 OpenAI 面向特定开发任务的高负荷「劳模」，而非发散创意的灵感源泉。

GPT‑4.1 的优势

・遵循复杂指令

GPT‑4.1 处理任务就像经验老到的领航员。

比如你正在写一个食谱生成器，并且把所有的要求都写在了一个提示词里 —— 以 Markdown 输出、避开特定话题、按指定顺序列出烹饪步骤，并附上钠含量等关键指标。

旧版模型可能会漏掉步骤或乱了顺序，而 4.1 会严格遵照你的路线，哪怕十分漫长、全是弯弯绕绕。

这带来了两大好处：写提示词的时间更短，处理模型输出的时间也更短。

・记忆力惊人

上下文窗口从 128000 个 token 扩大到 1000000 个 token，比 GPT‑4o 足足多出了 8 倍。

你只需一次性设定语气或结构，它便能在多轮对话中持续遵循，无需每次从头设置。

这让很多实际场景变得可行：一次性处理完整日志、为代码仓库建索引、顺畅运行多文档法律流程，或分析长篇内容，全程无需分块或摘要。

・结构化输出

GPT‑4.1 就像自驾游里那个「只要路线明确就特别好相处」的朋友。给它清晰的行程表，它就执行得又准又快。

可如果抛给它「氛围」式的提示词，比如「能不能让这个食谱 App 像走进一家温馨的地下酒吧？」，它可能立刻就想回家。

GPT‑4.1、GPT-4.1 mini 和 GPT-4.1 nano

如果你想在编码、指令遵循以及长上下文任务上获得最优综合表现，就选 GPT‑4.1。它能胜任复杂的编码工作流，也能在单条提示词中处理大体量文档。

GPT‑4.1 mini 属于中端选项，延迟和成本更低，却几乎具备与完整版相同的能力。在多项基准（包括指令遵循和图像推理）中，它能追平甚至超越 GPT‑4o。

GPT‑4.1 nano 是系列中体积最小、速度最快、成本最低的模型（0.1 美元 / 百万 Token），面向自动补全、分类，以及从长文档中抽取信息等任务。虽然它的推理和规划能力不如更大的模型，但对于某些任务来说，这已经足够用了。

与完整版的 GPT‑4.1 一样，mini 和 nano 都支持 100 万 Token 的上下文窗口。

对比竞品的表现

• GPT-4.1 vs Claude 3.7 Sonnet

根据测试，在代码的优雅度和结构性方面，Claude 3.7 Sonnet 仍是首选，尤其体现在整体风格一致性和用户界面表现上。

不过，只要提示词范围清晰且具体，4.1 在执行指令能力上已大幅拉近差距。

• o4‑mini vs GPT‑3.5

就目前观察，o4‑mini 正逐渐成为开发者在有限预算下追求速度、可靠性与视觉处理能力时的「平价首选」。而 2022 年 11 月发布的 GPT‑3.5，如今已经显得有些「过气」了。

参考资料：

https://every.to/context-window/vibe-check-openai-s-o3-gpt-4-1-and-o4-mini
https://www.datacamp.com/blog/o4-mini
https://www.datacamp.com/blog/o3-openai
https://www.datacamp.com/blog/gpt-4-1

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，分享赚金币换豪礼

OpenAI ChatGPT

OpenAI o3 模型基准测试成绩遭质疑，实测分数远不及宣称

对 ChatGPT 说“谢谢”，竟给 OpenAI 带来“数千万美元”开销

制造商 Vifa 公布搭载 ChatGPT AI 助手的 Helsinki 2.0 便携音箱，近期在海外发售

大家都在买广告

热门评论

查看更多评论