# GPT-5.5发布：OpenAI最强Agent编程模型，稳定自主运行7小时，价格翻倍值不值？

上周刚写完Claude Opus 4.7发布 (opens new window)，还在感叹Opus编码能力遥遥领先。

结果今天凌晨，OpenAI直接甩出GPT-5.5。看看X上的介绍：

现在大家在 chatgpt的网页端和codex上用起来了。

我这里已经更新：

codex也通知更新：

OpenAI团队原话：这是我们迄今为止最智能、最直观易用的模型。

Sam Altman本人的评价更直接：根据我的经验，它知道该做什么。

"知道该做什么"，用过Agent的录友应该能get到——现在大部分模型的问题不是"不会做"，而是"不知道该做什么"。它需要你把每一步都安排好，少说一句它就跑偏。

GPT-5.5想解决的就是这个问题。

接下来逐个拆开看看。

# 评测

先看硬数据。

图里那些英文评测名字，大部分录友可能看不懂，逐个解释一下：

编码类

Terminal-Bench 2.0——全链路Agent工程能力。不是写一段代码就完事，而是在真实终端环境中完成"实现→调试→验证"的完整工程链。GPT-5.5拿到82.7%，Opus 4.7没有公开这个分数。

Expert-SWE (Internal)——OpenAI内部评测，专门测人类预估中位完成时间20小时的长周期编程任务。比SWE-Bench难得多，Codex研究员自己都说"SWE-Bench已不能衡量顶尖编程能力了"。GPT-5.5拿到73.1%。

SWE-Bench Pro——业界公认最能反映真实GitHub issue解决能力的评测，给模型一个真实的GitHub issue描述，让它生成修复补丁。GPT-5.5得分58.6%，但Opus 4.7是64.3%，这块GPT-5.5输了。

Aider Polyglot——Aider排行榜的多语言编码测试，不只是一种语言写对就行，跨语言都要能干活。

知识工作 / Agent类

GDPval——评估AI在44个职业中完成规范知识工作的水平，涵盖法律、医疗、金融等领域。GPT-5.5拿到84.9%，Opus 4.7是80.3%。

OSWorld-Verified——测试模型能否独立操作真实电脑环境——像人一样看屏幕、点鼠标、打字、在不同软件间切换。GPT-5.5得分78.7%，Opus 4.7是78.0%，基本打平。

Tau2-bench——测试模型在复杂客服工作流中处理多轮对话、查询系统、执行操作的能力。GPT-5.5在没有提示词调优的情况下达到98.0%。

MMMU Pro——带工具调用的多模态视觉理解测试，看图的同时还能调用工具，考验的是组合场景下的能力。

科研 / 学术类

GeneBench——多阶段科学数据分析，要求模型在几乎没有人工干预的情况下处理模糊数据、应对隐藏混杂因素。分低是因为难度极高，GPT-5.5拿到25.0%。

BixBench——基于真实生物信息学设计的评测，GPT-5.5得分80.5%，所有已公开分数的模型中排名第一。

FrontierMath Tier 4——由陶哲轩等顶级数学家策划的前沿数学题库中最难一档，题目涉及代数几何、数论，难度接近未发表研究。GPT-5.5得分35.4%，Opus 4.7只有22.9%，差距超过12个百分点。

ARC-AGI-2——通用智能基准测试，测抽象推理和泛化能力，被认为是衡量AGI进展的重要指标。GPT-5.5拿到85.0%。

安全类

CTF (Capture The Flag)——网络安全夺旗赛，测安全攻防能力，GPT-5.5得分88.1%。

CyberGym——网络安全综合评测，涵盖漏洞分析、攻击模拟，GPT-5.5拿到81.8%，Opus 4.7是73.1%。

看完这些数字，结论很明确：GPT-5.5在Agent场景（终端操作、电脑使用、知识工作、科研）大幅领先，但在纯编码修复（SWE-Bench Pro）还是输给了Opus 4.7。

# 一、编程能力：超越Gemini 3.1 Pro，与Opus 4.7互有胜负

GPT-5.5的编程能力全面超越了Gemini 3.1 Pro，这个没什么争议。

但和Claude Opus 4.7比呢？情况有点微妙：

GPT-5.5领先的领域：专业任务、计算机使用与视觉、工具使用、抽象推理——这些领域的测试成绩大部分高于Claude Opus 4.7。

GPT-5.5没拉开差距的领域：学术能力和工具使用——和Claude Opus 4.7、Gemini 3.1 Pro差不多。

说白了，GPT-5.5强在Agent场景——需要跨上下文推理、持续自主行动的任务。纯学术benchmark，三家没拉开实质性差距。

这也符合OpenAI这次的主打方向：GPT-5.5不是刷榜模型，是干活模型。

# 二、Agent能力：这才是GPT-5.5的核心升级

OpenAI这次反复强调的词是"Agentic"。

在Terminal-Bench 2.0、Expert-SWE (Internal) 可以看到 5.5的较大进步。（这两个评测不知道啥意思的话，可以看本篇开头的介绍）

GPT-5.5在智能体编程、计算机使用、知识型工作、早期科学研究领域提升最显著——共同特点是：需要跨上下文推理和持续自主行动。

不是单步变强了，是连续干活的能力变强了。

几个实测案例：

案例1：20分钟完成代码合并

开源项目Claude Engineer的创建者Pietro Schirano，让GPT-5.5对比两个版本的代码差异，然后基于正式版本创建新分支，将其他分支的所有改动合并进去——只用了大约20分钟。

他还用GPT-5.5一次性生成了一个可玩的3D射击游戏，每个图形由Three.js从零生成。

更离谱的是，他让GPT-5.5通过USB连接为Flipper Zero创建应用程序，并成功推送到设备上。他感慨："我第一次感觉自己不再受限于模型的功能，而只受限于我的想象力。"

案例2：稳定自主运行7小时

AI工程师Peter Gostev做了个深度测试——给GPT-5.5设定步骤提示词，让它按步骤逐项完成。实测：至少可以稳定自主运行7个小时。

7小时意味着什么？意味着你早上给它布置一个任务，中午吃饭回来，它还在干，而且没跑偏。

对比一下，之前大部分Agent模型跑30分钟就开始"忘事"了——上下文腐化、偏离初衷、重复劳动。GPT-5.5能跑7小时不崩，这个进步是实打实的。

案例3：11分钟构建数学应用

波兰密茨凯维奇大学数学系助理教授Bartosz Naskręcki，用Codex中的GPT-5.5，仅凭一条提示词，11分钟内构建了一个代数几何应用——可视化二次曲面的交线，并将结果转换为Weierstrass模型。

# 三、Codex升级：从代码补全到自主工作台

这次发布，OpenAI 说的最多的是 Codex。

之前的 Codex 本质上还是代码补全工具——你写一段，它续一段。但 GPT-5.5 时代的 Codex，OpenAI 的定位变了：能接手完整工程任务链的自主工作台。

什么叫"自主工作台"？就是从实现功能、重构、调试、测试到写文档、跑数据分析，全部能干，不需要你一步步指挥。

具体升级了什么？

计算机使用能力——Codex 现在能像人一样"看"屏幕、点击、打字，在不同软件之间切换。你可以让它去测试一个入职流程，它会自己打开网页、填表、点按钮、截屏，根据看到的内容不断迭代，直到任务完成。

Web 应用交互——Codex 可以直接和 Web 应用交互，测试流程、点击页面、截取屏幕，然后根据所见内容迭代。不只是写代码了，是能"操作"了。

文件查看器——应用内新增了文件查看器，可以更快地审阅、修订和迭代电子表格、PPT、文档。

Fast mode——Codex 新增竞速模式，2.5倍成本换1.5倍的 token 生成速度。对时间敏感的任务可以开，不急的就用标准模式省钱。

还有一个数据挺有意思：OpenAI 内部超过 85% 的员工每周使用 Codex，跨部门——不只是工程师，公关、财务、市场都在用。

具体怎么用的？公关部门用 GPT-5.5 分析了六个月的演讲邀约数据，搭建了评分和风险框架，低风险请求自动走 Slack AI 智能体处理。财务部门审查了 24,771 份 K-1 税表，共 71,637 页，比去年提前两周完成。市场团队实现了每周业务报告自动生成，每周省 5 到 10 个小时。

AI 写作平台 Every 创始人 Dan Shipper 给了一个很具体的案例：他在产品上线后调试了数天的顽固 bug，最终靠工程师重构解决。他用 GPT-5.5 重新面对同一个问题，模型给出了与工程师方案高度一致的重构建议。而 GPT-5.4 没做到。他的评价是："第一个真正具备概念清晰度的编程模型。"

这些案例说明一件事：Codex + GPT-5.5 的组合，让 AI 从"帮你写代码"变成了"帮你干活"。 这才是 OpenAI 这次想讲的核心故事。

Codex升级：从代码补全到自主工作台

# 四、速度与效率：比GPT-5.4更省token

GPT-5.5保持了和GPT-5.4相同的每token延迟，但智能水平更高。

而且完成相同的Codex任务时，GPT-5.5使用的token数显著更少。

这意味着两件事：

同样的事，GPT-5.5用更少的token就能做完——效率更高
同样的事，GPT-5.5做得更好——能力更强

又快又好还省钱？等等，别急，往下看价格。

# 五、价格：翻倍了

这是最扎心的部分。

模型	输入价格	输出价格
GPT-5.4	$2.5/百万token	$15/百万token
GPT-5.5	$5/百万token	$30/百万token
GPT-5.5 Pro	$30/百万token	$180/百万token
Claude Opus 4.7	$5/百万token	$25/百万token

GPT-5.5比GPT-5.4贵了一倍。

和Claude Opus 4.7比：输入价格一样，输出每百万token贵5美元。基本持平。

但GPT-5.5 Pro就离谱了——$180/百万输出token，这是给不差钱的大厂准备的。

我的看法：GPT-5.5虽然单位token更贵，但做同样任务用的token更少，实际成本差距没有价格表看起来那么大。

不过"更省token"这个优势能不能抵消"价格翻倍"，取决于你的具体任务——简单任务用5.4就够了，复杂Agent任务5.5更合适。

还有一个变量：上下文窗口100万token。之前GPT-5.4也是100万，没变。

但7小时Agent任务跑下来，100万token能不能撑住？如果中间需要Context Reset，那实际token消耗可能比预期高不少。

# 六、与Claude Opus 4.7 各有所长

上周刚写的Opus 4.7 (opens new window)，编码能力暴涨、视觉3倍提升、xhigh档位。现在GPT-5.5来了，怎么选？

维度	GPT-5.5	Claude Opus 4.7
编码benchmark	与Opus 4.7互有胜负	CursorBench 70%断层第一
Agent长任务	稳定运行7小时+	Codex百万行代码实践
计算机使用/视觉	大部分测试领先	视觉分辨率3倍提升
价格（输出）	$30/百万token	$25/百万token
上下文窗口	100万token	200K token
生态	Codex + ChatGPT	Claude Code + CLI
effort控制	无	xhigh档位精细控制

几个关键判断：

编程场景：Opus 4.7在CursorBench等编码benchmark上更强，且有xhigh档位做精细控制。如果你主要用Claude Code写代码，Opus 4.7仍然是更好的选择。

Agent长任务：GPT-5.5的7小时稳定运行是目前公开数据里最强的。100万上下文窗口也是优势。如果你的场景是"布置一个任务然后走人"，GPT-5.5更合适。

成本敏感：Opus 4.7输出便宜5美元/百万token，而且有effort参数可以省token。价格上Opus 4.7更友好。

说白了：Opus 4.7更擅长"写代码"，GPT-5.5更擅长"跑任务"。两个不是替代关系，是能力侧重不同。

# 七、Anthropic紧急出手：修复降智，重置限制

GPT-5.5发布的时间点很有意思——Claude Code最近性能变差的事情，社区里骂声一片。

Anthropic反应很快：GPT-5.5发布当天，发长文宣布已修复降智问题，并且重置所有订阅用户的使用限制。

修复和重置是真的，但时机也确实是被迫的——用户刚在抱怨Claude变笨，竞品就发布了新品，不动作不行。

# 写在最后

GPT-5.5三个关键词：Agent更强、价格翻倍、与Opus 4.7各有所长。

对开发者来说：

在用Claude Code写代码的：不用急换，Opus 4.7编码能力仍然更强，而且更便宜
在跑Agent长任务的：值得试试GPT-5.5，7小时稳定运行确实是目前最强
预算有限的：GPT-5.4或Opus 4.6仍然是性价比之选，GPT-5.5翻倍的价格不是谁都扛得住
做竞品分析的：注意GPT-5.5在"计算机使用"和"工具使用"上的领先——这说明OpenAI在Agent这个方向上投入很大

最后说一句实话：现在大模型迭代速度太快了，Opus 4.7刚发布一周，GPT-5.5就来了。接下来Google I/O大概率也会放Gemini的新版本。

（deepseekV4 也发布了，明天单独写一篇来分析一下）

加油

← DeepSeek V4发布 Claude Opus 4.7发布 →

验证登录状态...