GPT-5.5 评测：功能、基准测试、定价及升级方式 - AICC

OpenAI 又投下了一颗重磅炸弹。2026 年 4 月 23 日星期四，OpenAI 发布了 GPT-5.5——其最新的 AI 模型。该公司表示，新模型在编码、计算机应用以及进行更深入的研究方面都表现更出色。GPT-5.5 的发布距离 GPT-5.4 的发布仅六周，如此快速的更新速度表明，OpenAI 在构建和部署前沿 AI 的方式上已经发生了根本性的转变。

这并非一个小补丁。OpenAI 将“超级应用”愿景寄托于 GPT-5.5 模型之上——而早期数据也印证了这一点。本文将为您介绍所有您需要了解的信息，从重要的基准测试到鲜为人知的局限性。

什么是 GPT-5.5？

GPT-5.5 是 OpenAI 于 2026 年 4 月 23 日发布的尖端编码和推理模型。它在 SWE-bench 测试中得分 88.7%，在 MMLU 测试中得分 92.4%，与 GPT-5.4 相比，幻觉减少了 60%。GPT-5.5 提供三个版本：GPT-5.5 标准版、GPT-5.5 Thinking（扩展推理版）和 GPT-5.5 Pro（最高精度版）。

GPT-5.5 能更快地理解你的意图，并能承担更多工作。它擅长编写和调试代码、在线搜索、分析数据、创建文档和电子表格、操作软件，以及在不同工具间灵活切换直至完成任务。

网上流传的代号是 “土豆” ——这是对 OpenAI 在其预告帖中使用的土豆表情符号的致敬。名字朴实无华，模型却并非如此。

88.7%

SWE-bench 得分

92.4%

MMLU 得分

-60%

幻觉 vs 5.4

82.7%

终端工作台 2.0

核心理念：少手把手指导，多注重实干

OpenAI 通过 GPT-5.5 所强调的核心理念是自主性。OpenAI 总裁 Greg Brockman 是这样描述的：该模型 “能够看清不明的问题，并弄清楚接下来应该怎么做。”

在一次新闻发布会上，布罗克曼将 GPT-5.5 定义为迈向“更智能、更直观的计算”的一步，称其为“朝着我们未来所期待的计算方式迈出的真正一步”。据 OpenAI 称，GPT-5.5 的设计目标是处理复杂、模糊的任务，并且所需的人工指导比以往的模型更少。实际上，这意味着你可以把它交给它一个庞大的多步骤问题——例如杂乱的代码库、边界不清的研究任务或跨工具的工作流程——然后相信它能够进行规划、迭代和自我纠错。

GPT-5.5 主要特性：深度解析

1. 代理编码——标题能力

OpenAI 表示，GPT-5.5 是其迄今为止最强大的智能体编码模型。在用于衡量复杂命令行工作流程的 Terminal-Bench 2.0 测试中，该模型得分 82.7%，高于 GPT-5.4 的 75.1%。在用于评估 GitHub 真实问题解决能力的 SWE-Bench Pro 测试中，其得分达到 58.6%。OpenAI 还表示，与之前的版本相比，GPT-5.5 能够在一次测试中完成更多端到端的任务。

为了更好地理解这些数据，我们不妨看看竞争环境：Claude Opus 4.7 在 Terminal-Bench 2.0 测试中的得分为 69.4%，比 GPT-5.5 高出 13 个百分点以上。OpenAI 也曾在其自身的基础设施中使用过 GPT-5.5。LLM 帮助优化了管理该基础设施的软件——这是一个不同寻常且极具启发性的概念验证。

2. 计算机使用——直接操作操作系统

GPT-5.5 最被低估的升级之一是其自主导航软件界面的能力。OpenAI 表示，GPT-5.5 在 Codex 中生成文档、电子表格和幻灯片演示文稿方面优于 GPT-5.4，并且其计算机使用能力使其在工具间切换、结果检查和界面导航方面表现更佳。

这不仅仅是方便的问题。对于管理复杂工作流程的企业团队来说，一个能够真正“操作”软件（而不仅仅是提出建议）的模型，是一次质的飞跃。

该模型是朝着我们未来所期望的计算方式迈出的一大步——但这只是第一步，我们预计未来还会看到更多这样的步骤。

——OpenAI总裁Greg Brockman

3. 深度研究与科学发现

OpenAI 表示，在研究任务方面，GPT-5.5 在 GeneBench 上比 GPT-5.4 有所改进，在 BixBench 上达到了 80.5%，并将其描述为已发布分数的模型中领先的性能。

最引人注目的研究成果是：定制版的 GPT-5.5 帮助研究人员发现了一个涉及非对角拉姆齐数的新证明，该证明后来在 Lean 中得到验证。作为背景，拉姆齐理论是组合数学中一个出了名的难点，在计算机科学领域有着直接的应用。人工智能辅助的数学发现达到如此高的水平实属罕见且意义重大。

4. 长语境推理

在 MRCR v2 基准测试中（该测试旨在检验模型在超长文本中定位多个隐藏信息的可靠性），GPT-5.5 的表现突飞猛进。 74.0% 在 512K 到 1M 个 token 的上下文长度下，GPT-5.5 的准确率从 GPT-5.4 的 36.6% 上升到 45.4%。在 Graphwalks BFS 测试中，GPT-5.5 的准确率从 9.4% (GPT-5.4) 跃升至 45.4%。

这些并非微小的改进。长上下文性能翻倍意味着 GPT-5.5 能够在单个上下文窗口中处理整个代码库、冗长的法律文件或多年的研究档案，并且可靠性显著提高。

5. 跨专业知识工作

在 GDPVal 基准测试中，GPT-5.5 在 84.9% 的比较中达到或超过行业专业人士的水平，该基准测试涵盖 44 个真实职业的知识工作——从金融到法律研究再到产品管理。

OpenAI内部表示，其财务团队使用Codex和GPT-5.5进行审查。 24,771份K-1税表，共计71,637页与上一年相比，这帮助加快了流程两周。这并非一个基准指标——这是规模化生产中实际的生产力提升成果。

GPT-5.5 与 GPT-5.4：主要区别概览

指标	GPT-5.4	GPT-5.5
发布日期	2026年3月5日	2026年4月23日
终端工作台 2.0	75.1%	82.7%
SWE-Bench Pro	57.7%	58.6%
MRCR v2（51.2万至100万个Tokens）	36.6%	74.0%
GDPVal（知识工作）	83.0%	84.9%
API 输入价格（每百万Tokens）	2.50美元	5.00美元
API 输出价格（每百万Tokens）	15.00美元	30.00美元
上下文窗口	100万个Tokens	100万个Tokens
减少幻觉	—	与 GPT-5.4 相比，减少了 60%。

与 GPT-5.4 相比，GPT-5.5 在 10 个基准测试中的 9 个上都有所改进，其中在 ARC-AGI-2、MCP Atlas 和 Terminal-Bench 2.0 上的改进最为显著。

定价与获取：谁能获得以及费用是多少

GPT-5.5 已包含在 ChatGPT Plus（每月 20 美元）、Pro（每月 200 美元）、Business 和 Enterprise 套餐中。API 定价已公布，但尚未生效。 每百万输入Tokens5美元 和 每百万个Tokens产出成本为 30 美元 标准版的价格比 GPT-5.4 的 2.50 美元/15 美元高出 2 倍。GPT-5.5 Pro 的价格为每百万 30 美元/180 美元，与 GPT-5.4 Pro 相同。

GPT-5.5 Thinking 适用于所有付费套餐，而 GPT-5.5 Pro 仅限 Pro、Business 和 Enterprise 用户使用。Codex 的访问权限涵盖 Plus、Pro、Business、Enterprise、Edu 和 Go 套餐，并提供 400K 的上下文窗口。

价格翻倍乍看之下似乎很高。但 OpenAI 的反驳论点是效率：GPT-5.5 不仅更智能，而且令牌效率更高，对于大多数用户而言，在 Codex 任务上，它能以更少的令牌提供比 GPT-5.4 更好的结果。对于运行复杂智能体工作流程的团队来说，实际成本影响可能比标价所显示的要小。

实际应用：GPT-5.5 的优势所在

面向开发人员和工程团队： SWE-bench 和 Terminal-Bench 的性能提升可直接转化为更快的调试速度、更便捷的代码库导航以及代理循环中更少的人工纠错次数。如果您运行任何形式的自动化编码流程，此次升级都意义非凡。

面向法律和金融专业人士： GPT-5.5 Pro 在商业、法律、教育和数据科学等应用场景中均能显著提升处理质量。以 K-1 税表为例——处理 71,637 页仅需两周时间——便能直观地展现其效率提升的极限。

对于研究人员： 拉姆齐数证明、GeneBench 改进和 BixBench 分数表明 GPT-5.5 是科学工作的真正合作研究者，而不仅仅是摘要工具。

对于企业知识工作者： 超过 10,000 名 NVIDIA 员工，涵盖工程、产品、法务、市场营销、财务、销售、人力资源和运营等部门，提前体验了该产品，并将结果描述为“令人震惊”和“改变人生”。这是来自内部的异常强烈的认可。

GPT-5.5 的不足之处

对一款新车型进行客观报道，需要承认竞争对手在哪些方面仍然占据优势。

在 SWE-Bench Pro 上， Claude Opus 4.7 胜过 GPT-5.5 GPT-5.5 的得分分别为 64.3% 和 58.6%。在 MCP Atlas 测试中，GPT-5.5 的得分为 75.3%，低于 Claude Opus 4.7 (79.1%) 和 Gemini 3.1 Pro (78.2%)。在网络研究基准测试 BrowseComp 上，GPT-5.5 的得分也略低于 Gemini，分别为 84.4% 和 85.9%。

在 GDPval 测试中，GPT-5.5 的得分为 84.9%，仅比 GPT-5.4 的 83.0% 略有提高——这表明，对于日常专业任务，与上一代相比的性能差距可能比标题所暗示的要小。

是否应该升级？决策框架

如果……立即升级

你运行的是智能编码流水线或者大量使用 Codex。
您处理的文档包含超过 50 万个令牌。
您的用例涉及多步骤计算机交互
你正在进行一项需要深入、反复推理的研究。

如果……请坚持使用 GPT-5.4

高容量、低复杂度的工作负载（分类、摘要）
对成本敏感，且GPT-5.4已经达到性能瓶颈。
主要需要通过MCP Atlas使用工具，其中Claude/Gemini负责。
构建消费者应用——等待在生产流量上进行 A/B 测试

更宏观的视角：OpenAI 的速度问题（以及机遇）

OpenAI发布GPT-5.4不到两个月后，GPT-5.5便正式发布。这一时间线凸显了人工智能领域的飞速发展以及业内巨头之间竞争的激烈程度。就在几周前，Anthropic Games发布了其具备先进网络安全能力的新模型Claude Mythos Preview——这再次提醒我们，GPT-5.5的发布不仅关乎技术成熟，更关乎竞争时机。

布罗克曼将 GPT-5.5 视为 OpenAI 迈向“超级应用”愿景的重要一步——该愿景旨在打造一个能够端到端处理知识工作、编码、研究和软件运维的单一智能界面。这一愿景能否在 2026 年实现，目前尚不得而知。但其发布速度之快——GPT-5、5.1、5.2、5.3-Codex、5.4，以及现在的 5.5，短短九个月内就相继发布——表明 OpenAI 正在构建一个远超任何单一模型的宏伟蓝图。

常见问题解答

GPT-5.5是什么？

GPT-5.5 是 OpenAI 于 2026 年 4 月 23 日发布的前沿人工智能模型。它专为智能编码、计算机应用、深度学习和知识工作而设计，并提供三种版本：标准版、思考版和专业版。

GPT-5.5 与 GPT-5.4 有何不同？

GPT-5.5 在长上下文推理、终端和编码基准测试以及减少幻觉方面均有显著提升（与 GPT-5.4 相比错误率降低了 60%），同时保持了与 GPT-5.4 相同的单词延迟。但代价是 API 价格翻了一番。

GPT-5.5 的价格是多少？

通过 API 使用：每百万输入令牌 5 美元，每百万输出令牌 30 美元。GPT-5.5 Pro 的价格为每百万令牌 30 美元/180 美元。它包含在 ChatGPT Plus、Pro、Business 和 Enterprise 订阅中，无需额外付费。

GPT-5.5 是否对免费用户开放？

不。GPT-5.5 目前仅面向 ChatGPT 的付费用户（Plus、Pro、Business、Enterprise）推出。免费版尚未公布。

GPT-5.5 比 Claude 和 Gemini 更胜一筹吗？

在诸如 Terminal-Bench 2.0 和智能体任务等编码基准测试中，GPT-5.5 表现领先。而在 SWE-Bench Pro 和 MCP Atlas 工具使用基准测试中，Claude Opus 4.7 和 Gemini 3.1 Pro 则具有竞争优势。没有哪个模型能在所有基准测试中都占据绝对优势。

GPT-5.5 API 何时可用？

OpenAI 已公布定价，但表示 API 的推出“很快就会到来”，即 2026 年 4 月 23 日。

// 结论

GPT-5.5 是 OpenAI 迄今为止发布的性能最强的模型，在那些对智能体和长时域任务至关重要的基准测试中表现出色——仅长时域性能的提升就非常显著。由于其 API 价格翻倍，因此在大规模部署之前需要仔细评估。但对于从事严肃编码、研究或计算机自动化工作的团队而言，这种能力提升是真实且可衡量的。

这里的关键在于进步的速度。我们正处于一个前沿人工智能模型每六周迭代一次的时代。这改变了开发者、企业和个人对人工智能技术栈的思考方式——它不再是静态的基础设施选择，而是一个需要不断评估和调整的动态决策。

GPT-5.5 不是终点线。正如布罗克曼所说，它只是其中一步。

来源

OpenAI官方公告 · CNBC · TechCrunch · The Decoder · SiliconAngle · iClarified · NVIDIA博客 · 人工智能分析 · llm-stats.com

WWDC 2026 回顾：Siri AI 革命、iOS 27、macOS Golden Gate 和 Apple 智能升级——你需要知道的一切

微软Build 2026：智能体人工智能的黎明——重要公告、MAI模型、Scout及其对开发者和企业的意义

苹果 WWDC 2026 预览：iOS 27、革命性的 Siri、苹果智能升级及预期内容

Kimi Work：Moonshot AI 的 K2.6 如何构建人工智能驱动的未来生产力（2026 年回顾与指南）

Vercel v0 将于 2026 年发布：这款人工智能驱动的颠覆性产品将以前所未有的速度构建全栈应用程序。

Claude·米索斯：Anthropic迄今为止最强大的人工智能过于危险，不宜公开发布——以下是它将在2026年重塑网络安全的原因

Claude Opus 4.8 评测：Anthropic 最新人工智能强机，适用于编码、智能体和长期任务

2026年的世界模型：为什么Google、英伟达、乐存和李飞飞都在人工智能领域投入数十亿美元，开发能够理解物理世界的人工智能

Qwen3.7 Max：阿里巴巴的新型智能AI巨兽——35小时自主运行、100万次上下文记忆，以及它在2026年的重要性

什么是 Google AI Studio？2026 年完整指南、功能及定价

Google搜索改版 2026：人工智能模式与信息代理详解

什么是 Gemini Omni？Google的“从任何输入创造任何事物”人工智能模型——全面解析

Google I/O 2026：全部发布内容——Gemini 3.5、Spark、Omni、通用购物车和智能眼镜

Composer 2.5 评测：Cursor 迄今为止最经济实惠的前沿编码代理——深度解析、基准测试和实际应用测试

AI.cc 报告：《2026 年企业统一 AI API 平台指南》

2026 年如何使用 LangSmith：从入门到精通的完整指南

GPT-5.5 来了：关于 OpenAI 迄今为止最强大的模型，你需要知道的一切

GPT-5.5 版本已发布：一切你需要了解OpenAI迄今为止最强大的模型

什么是 GPT-5.5？

核心理念：少手把手指导，多注重实干

GPT-5.5 主要特性：深度解析

1. 代理编码——标题能力

2. 计算机使用——直接操作操作系统

3. 深度研究与科学发现

4. 长语境推理

5. 跨专业知识工作

GPT-5.5 与 GPT-5.4：主要区别概览

定价与获取：谁能获得以及费用是多少

实际应用：GPT-5.5 的优势所在

GPT-5.5 的不足之处

是否应该升级？决策框架

如果……立即升级

如果……请坚持使用 GPT-5.4

更宏观的视角：OpenAI 的速度问题（以及机遇）

常见问题解答

300 多个 AI 模型
OpenClaw 和人工智能代理

WWDC 2026 回顾：Siri AI 革命、iOS 27、macOS Golden Gate 和 Apple 智能升级——你需要知道的一切

微软Build 2026：智能体人工智能的黎明——重要公告、MAI模型、Scout及其对开发者和企业的意义

苹果 WWDC 2026 预览：iOS 27、革命性的 Siri、苹果智能升级及预期内容

Kimi Work：Moonshot AI 的 K2.6 如何构建人工智能驱动的未来生产力（2026 年回顾与指南）

Vercel v0 将于 2026 年发布：这款人工智能驱动的颠覆性产品将以前所未有的速度构建全栈应用程序。

Claude·米索斯：Anthropic迄今为止最强大的人工智能过于危险，不宜公开发布——以下是它将在2026年重塑网络安全的原因

Claude Opus 4.8 评测：Anthropic 最新人工智能强机，适用于编码、智能体和长期任务

2026年的世界模型：为什么Google、英伟达、乐存和李飞飞都在人工智能领域投入数十亿美元，开发能够理解物理世界的人工智能

Qwen3.7 Max：阿里巴巴的新型智能AI巨兽——35小时自主运行、100万次上下文记忆，以及它在2026年的重要性

什么是 Google AI Studio？2026 年完整指南、功能及定价

Google搜索改版 2026：人工智能模式与信息代理详解

什么是 Gemini Omni？Google的“从任何输入创造任何事物”人工智能模型——全面解析

Google I/O 2026：全部发布内容——Gemini 3.5、Spark、Omni、通用购物车和智能眼镜

Composer 2.5 评测：Cursor 迄今为止最经济实惠的前沿编码代理——深度解析、基准测试和实际应用测试

AI.cc 报告：《2026 年企业统一 AI API 平台指南》

2026 年如何使用 LangSmith：从入门到精通的完整指南

GPT-5.5 来了：关于 OpenAI 迄今为止最强大的模型，你需要知道的一切

什么是 GPT-5.5？

核心理念：少手把手指导，多注重实干

GPT-5.5 主要特性：深度解析

1. 代理编码——标题能力

2. 计算机使用——直接操作操作系统

3. 深度研究与科学发现

4. 长语境推理

5. 跨专业知识工作

GPT-5.5 与 GPT-5.4：主要区别概览

定价与获取：谁能获得以及费用是多少

实际应用：GPT-5.5 的优势所在

GPT-5.5 的不足之处

是否应该升级？决策框架

如果……立即升级

如果……请坚持使用 GPT-5.4

更宏观的视角：OpenAI 的速度问题（以及机遇）

常见问题解答

300 多个 AI 模型 OpenClaw 和人工智能代理

300 多个 AI 模型
OpenClaw 和人工智能代理