卡码笔记-最强八股文
首页
计算机基础
C++
Java
Go
大模型
  • Java面经
  • C++面经
  • 大模型面经
简历专栏
代码随想录 (opens new window)
首页
计算机基础
C++
Java
Go
大模型
  • Java面经
  • C++面经
  • 大模型面经
简历专栏
代码随想录 (opens new window)
  • 本栏必读

    • 卡码大模型专栏介绍
  • 入门认知

  • Prompt与调用基础

  • RAG检索增强

  • Agent智能体

  • 微调认知

  • 部署与工程化

  • 多模态入门

  • Transformer原理

  • 手撕Transformer

  • 模型家族与Llama架构

  • 大模型动态

    • DeepSeek V4发布
    • GPT-5.5发布
    • Claude Opus 4.7发布

# GPT-5.5发布:OpenAI最强Agent编程模型,稳定自主运行7小时,价格翻倍值不值?

上周刚写完Claude Opus 4.7发布 (opens new window),还在感叹Opus编码能力遥遥领先。

结果今天凌晨,OpenAI直接甩出GPT-5.5。看看X上的介绍:

现在大家在 chatgpt的网页端和codex上用起来了。

我这里已经更新:

codex也通知更新:

OpenAI团队原话:这是我们迄今为止最智能、最直观易用的模型。

Sam Altman本人的评价更直接:根据我的经验,它知道该做什么。

"知道该做什么",用过Agent的录友应该能get到——现在大部分模型的问题不是"不会做",而是"不知道该做什么"。它需要你把每一步都安排好,少说一句它就跑偏。

GPT-5.5想解决的就是这个问题。

接下来逐个拆开看看。

# 评测

先看硬数据。

图里那些英文评测名字,大部分录友可能看不懂,逐个解释一下:

编码类

Terminal-Bench 2.0——全链路Agent工程能力。不是写一段代码就完事,而是在真实终端环境中完成"实现→调试→验证"的完整工程链。GPT-5.5拿到82.7%,Opus 4.7没有公开这个分数。

Expert-SWE (Internal)——OpenAI内部评测,专门测人类预估中位完成时间20小时的长周期编程任务。比SWE-Bench难得多,Codex研究员自己都说"SWE-Bench已不能衡量顶尖编程能力了"。GPT-5.5拿到73.1%。

SWE-Bench Pro——业界公认最能反映真实GitHub issue解决能力的评测,给模型一个真实的GitHub issue描述,让它生成修复补丁。GPT-5.5得分58.6%,但Opus 4.7是64.3%,这块GPT-5.5输了。

Aider Polyglot——Aider排行榜的多语言编码测试,不只是一种语言写对就行,跨语言都要能干活。

知识工作 / Agent类

GDPval——评估AI在44个职业中完成规范知识工作的水平,涵盖法律、医疗、金融等领域。GPT-5.5拿到84.9%,Opus 4.7是80.3%。

OSWorld-Verified——测试模型能否独立操作真实电脑环境——像人一样看屏幕、点鼠标、打字、在不同软件间切换。GPT-5.5得分78.7%,Opus 4.7是78.0%,基本打平。

Tau2-bench——测试模型在复杂客服工作流中处理多轮对话、查询系统、执行操作的能力。GPT-5.5在没有提示词调优的情况下达到98.0%。

MMMU Pro——带工具调用的多模态视觉理解测试,看图的同时还能调用工具,考验的是组合场景下的能力。

科研 / 学术类

GeneBench——多阶段科学数据分析,要求模型在几乎没有人工干预的情况下处理模糊数据、应对隐藏混杂因素。分低是因为难度极高,GPT-5.5拿到25.0%。

BixBench——基于真实生物信息学设计的评测,GPT-5.5得分80.5%,所有已公开分数的模型中排名第一。

FrontierMath Tier 4——由陶哲轩等顶级数学家策划的前沿数学题库中最难一档,题目涉及代数几何、数论,难度接近未发表研究。GPT-5.5得分35.4%,Opus 4.7只有22.9%,差距超过12个百分点。

ARC-AGI-2——通用智能基准测试,测抽象推理和泛化能力,被认为是衡量AGI进展的重要指标。GPT-5.5拿到85.0%。

安全类

CTF (Capture The Flag)——网络安全夺旗赛,测安全攻防能力,GPT-5.5得分88.1%。

CyberGym——网络安全综合评测,涵盖漏洞分析、攻击模拟,GPT-5.5拿到81.8%,Opus 4.7是73.1%。

看完这些数字,结论很明确:GPT-5.5在Agent场景(终端操作、电脑使用、知识工作、科研)大幅领先,但在纯编码修复(SWE-Bench Pro)还是输给了Opus 4.7。

# 一、编程能力:超越Gemini 3.1 Pro,与Opus 4.7互有胜负

GPT-5.5的编程能力全面超越了Gemini 3.1 Pro,这个没什么争议。

但和Claude Opus 4.7比呢?情况有点微妙:

GPT-5.5领先的领域:专业任务、计算机使用与视觉、工具使用、抽象推理——这些领域的测试成绩大部分高于Claude Opus 4.7。

GPT-5.5没拉开差距的领域:学术能力和工具使用——和Claude Opus 4.7、Gemini 3.1 Pro差不多。

说白了,GPT-5.5强在Agent场景——需要跨上下文推理、持续自主行动的任务。纯学术benchmark,三家没拉开实质性差距。

这也符合OpenAI这次的主打方向:GPT-5.5不是刷榜模型,是干活模型。

# 二、Agent能力:这才是GPT-5.5的核心升级

OpenAI这次反复强调的词是"Agentic"。

在Terminal-Bench 2.0、Expert-SWE (Internal) 可以看到 5.5的较大进步。 (这两个评测不知道啥意思的话,可以看本篇开头的介绍)

GPT-5.5在智能体编程、计算机使用、知识型工作、早期科学研究领域提升最显著——共同特点是:需要跨上下文推理和持续自主行动。

不是单步变强了,是连续干活的能力变强了。

几个实测案例:

案例1:20分钟完成代码合并

开源项目Claude Engineer的创建者Pietro Schirano,让GPT-5.5对比两个版本的代码差异,然后基于正式版本创建新分支,将其他分支的所有改动合并进去——只用了大约20分钟。

他还用GPT-5.5一次性生成了一个可玩的3D射击游戏,每个图形由Three.js从零生成。

更离谱的是,他让GPT-5.5通过USB连接为Flipper Zero创建应用程序,并成功推送到设备上。他感慨:"我第一次感觉自己不再受限于模型的功能,而只受限于我的想象力。"

案例2:稳定自主运行7小时

AI工程师Peter Gostev做了个深度测试——给GPT-5.5设定步骤提示词,让它按步骤逐项完成。实测:至少可以稳定自主运行7个小时。

7小时意味着什么?意味着你早上给它布置一个任务,中午吃饭回来,它还在干,而且没跑偏。

对比一下,之前大部分Agent模型跑30分钟就开始"忘事"了——上下文腐化、偏离初衷、重复劳动。GPT-5.5能跑7小时不崩,这个进步是实打实的。

案例3:11分钟构建数学应用

波兰密茨凯维奇大学数学系助理教授Bartosz Naskręcki,用Codex中的GPT-5.5,仅凭一条提示词,11分钟内构建了一个代数几何应用——可视化二次曲面的交线,并将结果转换为Weierstrass模型。

# 三、Codex升级:从代码补全到自主工作台

这次发布,OpenAI 说的最多的是 Codex。

之前的 Codex 本质上还是代码补全工具——你写一段,它续一段。但 GPT-5.5 时代的 Codex,OpenAI 的定位变了:能接手完整工程任务链的自主工作台。

什么叫"自主工作台"?就是从实现功能、重构、调试、测试到写文档、跑数据分析,全部能干,不需要你一步步指挥。

具体升级了什么?

计算机使用能力——Codex 现在能像人一样"看"屏幕、点击、打字,在不同软件之间切换。你可以让它去测试一个入职流程,它会自己打开网页、填表、点按钮、截屏,根据看到的内容不断迭代,直到任务完成。

Web 应用交互——Codex 可以直接和 Web 应用交互,测试流程、点击页面、截取屏幕,然后根据所见内容迭代。不只是写代码了,是能"操作"了。

文件查看器——应用内新增了文件查看器,可以更快地审阅、修订和迭代电子表格、PPT、文档。

Fast mode——Codex 新增竞速模式,2.5倍成本换1.5倍的 token 生成速度。对时间敏感的任务可以开,不急的就用标准模式省钱。

还有一个数据挺有意思:OpenAI 内部超过 85% 的员工每周使用 Codex,跨部门——不只是工程师,公关、财务、市场都在用。

具体怎么用的?公关部门用 GPT-5.5 分析了六个月的演讲邀约数据,搭建了评分和风险框架,低风险请求自动走 Slack AI 智能体处理。财务部门审查了 24,771 份 K-1 税表,共 71,637 页,比去年提前两周完成。市场团队实现了每周业务报告自动生成,每周省 5 到 10 个小时。

AI 写作平台 Every 创始人 Dan Shipper 给了一个很具体的案例:他在产品上线后调试了数天的顽固 bug,最终靠工程师重构解决。他用 GPT-5.5 重新面对同一个问题,模型给出了与工程师方案高度一致的重构建议。而 GPT-5.4 没做到。他的评价是:"第一个真正具备概念清晰度的编程模型。"

这些案例说明一件事:Codex + GPT-5.5 的组合,让 AI 从"帮你写代码"变成了"帮你干活"。 这才是 OpenAI 这次想讲的核心故事。

Codex升级:从代码补全到自主工作台

# 四、速度与效率:比GPT-5.4更省token

GPT-5.5保持了和GPT-5.4相同的每token延迟,但智能水平更高。

而且完成相同的Codex任务时,GPT-5.5使用的token数显著更少。

这意味着两件事:

  1. 同样的事,GPT-5.5用更少的token就能做完——效率更高
  2. 同样的事,GPT-5.5做得更好——能力更强

又快又好还省钱?等等,别急,往下看价格。

# 五、价格:翻倍了

这是最扎心的部分。

模型 输入价格 输出价格
GPT-5.4 $2.5/百万token $15/百万token
GPT-5.5 $5/百万token $30/百万token
GPT-5.5 Pro $30/百万token $180/百万token
Claude Opus 4.7 $5/百万token $25/百万token

GPT-5.5比GPT-5.4贵了一倍。

和Claude Opus 4.7比:输入价格一样,输出每百万token贵5美元。基本持平。

但GPT-5.5 Pro就离谱了——$180/百万输出token,这是给不差钱的大厂准备的。

我的看法:GPT-5.5虽然单位token更贵,但做同样任务用的token更少,实际成本差距没有价格表看起来那么大。

不过"更省token"这个优势能不能抵消"价格翻倍",取决于你的具体任务——简单任务用5.4就够了,复杂Agent任务5.5更合适。

还有一个变量:上下文窗口100万token。之前GPT-5.4也是100万,没变。

但7小时Agent任务跑下来,100万token能不能撑住?如果中间需要Context Reset,那实际token消耗可能比预期高不少。

# 六、与Claude Opus 4.7 各有所长

上周刚写的Opus 4.7 (opens new window),编码能力暴涨、视觉3倍提升、xhigh档位。现在GPT-5.5来了,怎么选?

维度 GPT-5.5 Claude Opus 4.7
编码benchmark 与Opus 4.7互有胜负 CursorBench 70%断层第一
Agent长任务 稳定运行7小时+ Codex百万行代码实践
计算机使用/视觉 大部分测试领先 视觉分辨率3倍提升
价格(输出) $30/百万token $25/百万token
上下文窗口 100万token 200K token
生态 Codex + ChatGPT Claude Code + CLI
effort控制 无 xhigh档位精细控制

几个关键判断:

编程场景:Opus 4.7在CursorBench等编码benchmark上更强,且有xhigh档位做精细控制。如果你主要用Claude Code写代码,Opus 4.7仍然是更好的选择。

Agent长任务:GPT-5.5的7小时稳定运行是目前公开数据里最强的。100万上下文窗口也是优势。如果你的场景是"布置一个任务然后走人",GPT-5.5更合适。

成本敏感:Opus 4.7输出便宜5美元/百万token,而且有effort参数可以省token。价格上Opus 4.7更友好。

说白了:Opus 4.7更擅长"写代码",GPT-5.5更擅长"跑任务"。两个不是替代关系,是能力侧重不同。

# 七、Anthropic紧急出手:修复降智,重置限制

GPT-5.5发布的时间点很有意思——Claude Code最近性能变差的事情,社区里骂声一片。

Anthropic反应很快:GPT-5.5发布当天,发长文宣布已修复降智问题,并且重置所有订阅用户的使用限制。

修复和重置是真的,但时机也确实是被迫的——用户刚在抱怨Claude变笨,竞品就发布了新品,不动作不行。

# 写在最后

GPT-5.5三个关键词:Agent更强、价格翻倍、与Opus 4.7各有所长。

对开发者来说:

  • 在用Claude Code写代码的:不用急换,Opus 4.7编码能力仍然更强,而且更便宜
  • 在跑Agent长任务的:值得试试GPT-5.5,7小时稳定运行确实是目前最强
  • 预算有限的:GPT-5.4或Opus 4.6仍然是性价比之选,GPT-5.5翻倍的价格不是谁都扛得住
  • 做竞品分析的:注意GPT-5.5在"计算机使用"和"工具使用"上的领先——这说明OpenAI在Agent这个方向上投入很大

最后说一句实话:现在大模型迭代速度太快了,Opus 4.7刚发布一周,GPT-5.5就来了。接下来Google I/O大概率也会放Gemini的新版本。

(deepseekV4 也发布了,明天单独写一篇来分析一下)

加油

Last Updated: 4/24/2026, 3:19:24 PM

← DeepSeek V4发布 Claude Opus 4.7发布 →

评论

验证登录状态...

侧边栏
夜间
卡码简历
代码随想录
卡码投递表🔥
2026群
添加客服微信 PS:通过微信后,请发送姓名-学校-年级-2026实习/校招
支持卡码笔记
鼓励/支持/赞赏Carl
1. 如果感觉本站对你很有帮助,也可以请Carl喝杯奶茶,金额大小不重要,心意已经收下
2. 希望大家都能梦想成真,有好的前程,加油💪