专题新闻

OpenAI GPT-5.5:发布具备高级智能体能力的新型人工智能模型

2026-05-01 由 AICC 提供

OpenAI 发布了 GPT-5.54月23日 它称之为 “一种用于实际工作和驱动代理的新型智能,” 这种措辞是刻意的。OpenAI 表示,这是…… 迄今为止最强大的智能体人工智能模型从零开始构建,能够独立进行规划、使用工具、检查自己的输出并独立完成任务。

GPT-5.5 这是自 GPT-4.5 以来第一个重新训练的基础模型,由……共同设计 NVIDIA 的 GB200 和 GB300 NVL72 机架式系统该公司表示,实际区别在于,使用 GPT-5.5 时,以前需要多次提示和人工“纠正”的任务现在可以更彻底地交给机器完成。该模型正在推广至…… Plus、Pro、Business 和 Enterprise 用户 在 ChatGPT 和 Codex 中,API 访问随后展开。 4月24日

⚡ 基准测试

OpenAI 最强有力的性能声明是 终端工作台 2.0这是一个基准测试,用于在沙盒环境中测试需要规划和工具协调的命令行工作流程。GPT-5.5 得分 82.7%相比之下,GPT-5.4 的准确率为 75.1%,Claude Opus 4.7 的准确率为 69.4%。

SWE-Bench Pro用于评估 GitHub 问题解决情况的 GPT-5.5 达到了 58.6%与之前的版本相比,OpenAI 还引入了一项新功能,即在一次运行中解决更多问题。 专家级软件工程师这是一个内部基准测试,其中任务的预计人工完成时间中位数为 20 小时。GPT-5.5 得分 73.1%比 GPT-5.4 的 68.5% 有所提高。

在长远语境推理中, MRCR v2 一百万枚Tokens这是一个检索基准测试,用于检验模型能否在大文档中找到特定答案,GPT-5.5 得分 74.0%相比之下,GPT-5.4 的准确率为 36.6%。

然而,在 MCP 地图在 Scale AI 的模型上下文协议工具使用基准测试中,Claude Opus 4.7 以 79.1% 的得分领先,而 GPT-5.5 没有得分。OpenAI 在其基准测试表中也提到了 GPT-5.5 的缺席,这至少表明了他们对整体结果的信心。

💰 Tokens效率,定价现实

API 访问定价为 每百万个输入Tokens收费5美元每百万个产出Tokens30美元正好是 GPT-5.4 的两倍。OpenAI 的解释是,GPT-5.5 完成相同的 Codex 任务所需的标记数量比 GPT-5.4 少,因此有效成本大约为 2.5。 高出20% 一旦将其效率考虑在内,这一说法也得到了独立测试实验室 Artificial Analysis 的验证。

GPT-5.5 专业版适用于专业版、商业版和企业版用户,定价为 每百万输入Tokens30美元每百万个Tokens产出价值180美元它对更难的问题应用了额外的并行测试时计算,并且在公开可用的模型列表中名列前茅。 浏览竞赛OpenAI 的智能网络浏览基准测试,在 90.1%

在决定切换模型之前,值得针对实际工作负载进行Tokens效率压力测试。GPT-5.5 标准版每月输出 1000 万个Tokens,成本为…… 300美元 对抗Claude·奥普斯 4.7 的 250美元只有当模型的卓越代理性能意味着更少的任务迭代和更少的重试次数时,20% 的溢价才能带来收益,具体计算方法因用例而异。

🔧 实践中

OpenAI 表示,这不仅仅是 85%的员工 现在,包括工程和市场营销在内的各个部门每周都会使用 Codex。例如,传播团队使用 GPT-5.5 处理了六个月的演讲请求数据,该模型构建了一个评分和风险框架,帮助自动审批低风险请求。

格雷格·布罗克曼 此次发布被描述为 “这是朝着我们未来所期望的那种计算方式迈出的真正一步。” 首席科学家 雅库布·帕乔基 注意到过去两年的模型进展已经有所改善。 “慢得令人惊讶。”

OpenAI 表示,GPT-5.5 在生产环境中的每令牌延迟与 GPT-5.4 相当,同时智能水平更高;更大、更强大的模型通常服务速度更慢,但在这里避免了这种权衡。

要点总结: 基准测试结果能否转化为实际运行代理流水线的团队的生产效率提升,这个问题需要未来几周的时间才能得到解答。Terminal-Bench 的得分对于无人值守终端代理和 DevOps 自动化来说前景可观。对于任何大量依赖工具使用编排进行构建的团队来说,MCP Atlas 的差距都值得关注。

参见: OpenAI 将 GPT-5.5 带到 Codex,用于编码任务

(图片来源:“‘The Agent’ Fossil Watch” by MarkGregory007,已获得许可) CC BY-NC-SA 2.0

300 多个 AI 模型
OpenClaw 和人工智能代理

节省20%的费用