卡码笔记-最强八股文
首页
计算机基础
C++
Java
Go
🔥大模型🔥
  • 大模型面经
  • Java面经
  • C++面经
简历专栏
代码随想录 (opens new window)
首页
计算机基础
C++
Java
Go
🔥大模型🔥
  • 大模型面经
  • Java面经
  • C++面经
简历专栏
代码随想录 (opens new window)
  • 本栏必读

    • 卡码大模型专栏介绍
  • 大模型面经

  • 大模型动态

    • DeepSeek V4发布
    • GPT-5.5发布
    • Claude Opus 4.7发布
    • Claude Opus 4.8发布
    • DeepSeek V4降价75%实测
    • DeepSeek V4-Pro永久降价75%
  • 入门认知

  • Prompt与调用基础

  • RAG检索增强

  • Agent智能体

  • 微调认知

  • 部署与工程化

  • 多模态入门

  • Transformer原理

  • 手撕Transformer

  • 模型家族与Llama架构

# Claude Opus 4.8发布:别被跑分带节奏,真正值得看的是Claude Code工作流

Anthropic 昨天发布了 Claude Opus 4.8。

我心思这 4月16日刚发布 4.7 (opens new window),这么快就 4.8了,迭代速度有点快啊!

官方链接在这里:https://www.anthropic.com/news/claude-opus-4-8

这次发布很有意思。

不是因为它强到离谱,而是因为官方和外界的语气反差很大。

Anthropic 自己对 Opus 4.8 的描述很克制,用的是 modest。

也就是:温和更新。

但中文圈很多标题已经开始往“炸裂”“碾压”“最强”上靠了。

卡哥觉得这事需要冷静一点。

Opus 4.8 是一次有价值的工程更新,但它不是一次颠覆式换代。

如果你只看发布页大表,很容易被带偏。

如果你把脚注、Claude Code 的工作流更新、API 变化放在一起看,结论会更清楚:

Opus 4.8 的重点不是“跑分赢了谁”,而是更适合长时间帮开发者干活。

# 一、先别急着转那张跑分表

这次最容易误读的地方,是 Terminal-Bench 2.1。

Anthropic 发布页的大表里写的是:

模型 Terminal-Bench 2.1
Claude Opus 4.8 74.6%
GPT-5.5 78.2%

你没看错。

就按这张表本身,GPT-5.5 也是高于 Opus 4.8 的。

但更关键的是脚注。

Anthropic 在脚注里补充:GPT-5.5 在 Codex CLI harness 下的公开成绩是 83.4%。

这说明什么

说明同一个模型,同一个 benchmark,只要执行框架、工具链、运行环境变了,结果就可能明显变化。

78.2% 和 83.4%,差了 5.2 个百分点。

这个差距已经足够影响传播口径了。

大表负责传播,脚注负责真相。

这才是这次 Opus 4.8 发布里最值得提醒的一点。

# 二、那Opus 4.8到底有没有进步

有。

但不是那种“从 60 分跳到 90 分”的进步。

它更像是把 Opus 4.7 上几个影响开发体验的问题往前推了一步。

我把这次更新分成四类:

第一,控制权更清楚。

Opus 4.8 加强了 effort 思考强度控制。

以前用 Opus 4.7,很多录友的感受是:模型有时候想太多,有时候又想得不够。你付了钱,但模型这次到底愿意花多少力气思考,体感上不够可控。

现在可以通过 effort 明确告诉它:这次任务到底要浅一点,还是深一点。

API 里大概是这样:

thinking = {"type": "adaptive"}
output_config = {"effort": "high"}
1
2

我的建议:

  • 简单解释、普通脚本:不用高 effort
  • 改代码、排查问题:从 high 开始
  • 大仓库任务、长链路 Agent:再考虑 xhigh / extra

不要所有任务都开最高。

模型不是越努力越好,钱包会先努力不动。

第二,工具调用更像工程流程。

Anthropic 在文档里提到,Opus 4.8 目标之一是减少“该调工具却跳过工具调用”的情况。

这点比很多 benchmark 更重要。

Agent 写代码最怕什么?

不是它不会写。

而是它明明应该读文件,却直接猜。

明明应该跑测试,却直接总结。

明明应该查日志,却开始给你讲原理。

这种模型再聪明,放到工程里也不稳定。

Opus 4.8 如果能减少这类问题,价值很实在。

第三,长任务恢复更稳。

Claude Code 跑长任务时,经常会经历上下文压缩。

老问题是:压缩前模型还知道自己在干什么,压缩后突然换了脑子。

前面做过的判断忘了。

已经排除的方向又重新查一遍。

改着改着开始绕路。

Opus 4.8 对 long agent trace 和 compaction 后的连续性做了优化。

这对普通聊天没什么感觉,但对 Claude Code 用户非常关键。

因为 Claude Code 的价值,本来就不只是“写一段代码”,而是能持续推进一个工程任务。

第四,更愿意承认代码里还有问题。

Anthropic 提到,Opus 4.8 比 Opus 4.7 更不容易把自己写出的代码缺陷放过去不说。

这句话翻译成开发者语言就是:

它少了一点“自信地错”。

这很重要。

Agent 任务里,模型报错不可怕。

可怕的是它没修好,但告诉你已经修好了。

前者你还能继续调。

后者容易直接把坑带进代码库。

# 三、Dynamic workflows才是Claude Code用户该看的

这次发布里,我最关注的不是 Opus 4.8 本体,而是 Claude Code 的 dynamic workflows。

官方介绍在这里:https://claude.com/blog/introducing-dynamic-workflows-in-claude-code

它的思路很简单:

不要让一个 Agent 从头干到尾,而是让主 Agent 拆任务,再调度多个 subagents 并行处理,最后汇总和验证。

这其实更接近真实工程协作。

一个复杂任务,不应该只有“一个模型一直读、一直改、一直测”。

更合理的方式是:

  • 一个子任务负责读模块
  • 一个子任务负责找影响范围
  • 一个子任务负责改代码
  • 一个子任务负责跑测试
  • 一个子任务负责挑错
  • 主 Agent 最后合并判断

这类能力适合什么场景?

大仓库排查。

比如权限问题、性能问题、死代码、重复实现。

顺序扫很慢,并行拆开更合理。

大规模迁移。

比如 API 替换、框架升级、语言迁移、模块重构。

这类任务天然可以拆分,不适合让一个 Agent 慢慢翻。

高风险复核。

比如安全审计、合同检查、财务分析。

一个 Agent 给结论,另一个 Agent 专门找反例,再由主 Agent 汇总,比单次回答更靠谱。

不过录友别误会。

Dynamic workflows 不是省钱功能。

它更像是把“单人干活”升级成“小组协作”。

小组协作效率高,但人也多,token 也多。

第一次用,建议从小任务开始试,不要直接让它扫整个公司代码库。

# 四、Fast mode终于有点意义了

Opus 4.8 常规价格没变:

模式 输入价格 输出价格
常规模式 $5 / 百万 token $25 / 百万 token
Fast mode $10 / 百万 token $50 / 百万 token

Fast mode 的速度可以到 2.5 倍。

这次价格降到上一代 fast 的三分之一。

这不是便宜。

但至少不再是“看起来有用、实际舍不得开”的功能。

Claude Code 里,速度很影响体验。

尤其是:

  • 线上问题定位
  • 演示前修 bug
  • 大改动最后一轮验证
  • 任务快结束但卡在测试失败

这些场景下,fast mode 有价值。

但日常写代码,我不建议默认开。

Fast mode 买的是时间,不是性价比。

# 五、代码能力:更强,但别写成碾压

Opus 4.8 的代码能力确实比 Opus 4.7 好。

我更愿意把它理解成“工程稳定性提升”,而不是“智商暴涨”。

它在这些任务上更值得试:

  • 多文件修改
  • 长链路 bug 修复
  • PR 审查
  • 工具调用后继续验证
  • 上下文压缩后继续执行

但如果要和 GPT-5.5 比,不能只看一个表。

Claude Code 是 Claude 的主场。

Codex CLI 是 GPT-5.5 的主场。

不同工具链下,模型表现会变。

所以我的判断是:

Opus 4.8 和 GPT-5.5 在高端 AI 编程里都很强,具体谁好,要看任务和工具环境。

这也是为什么我不喜欢“碾压”这个词。

它听起来很爽,但对开发者没帮助。

开发者需要的是:这个任务用谁更稳、谁更便宜、谁更快、谁更容易校验。

# 六、表达风格稍微舒服了一点

Opus 4.7 有一个体感问题:有时不太像人在说话。

它会给出很硬的判断,但中间缺少足够自然的解释。

看起来像很强,读起来不一定舒服。

Opus 4.8 稍微好了点。

注意,是稍微。

如果你让它做代码审查、架构点评、文案修改,它仍然可能输出那种“模型味很重”的句子。

但整体上,比 Opus 4.7 更容易读。

我个人还是觉得 Opus 4.6 的表达最自然。

# 七、和DeepSeek V4怎么选

这两天刚写完 DeepSeek V4-Pro永久降价75% (opens new window),现在 Opus 4.8 又来了。

很多录友肯定会问:到底用哪个?

我的判断很简单:

便宜模型负责量,顶级模型负责难。

场景 推荐模型 原因
简单问答、文章初稿、普通代码解释 DeepSeek V4-Flash 便宜,够用
代码扫描、批量分析、日志总结 DeepSeek V4-Pro 价格低,适合大规模跑
核心代码修改、复杂 bug、长链路 Agent Claude Opus 4.8 / GPT-5.5 更稳,更会验证
大仓库迁移、安全审计、跨模块重构 Claude Code + Opus 4.8 dynamic workflows 能拆任务、并行跑、再验证

模型选型不是站队,是算账。

一个任务如果结果能自动校验、失败成本低、token 量很大,那 DeepSeek V4-Pro 很香。

一个任务如果失败成本高、上下文复杂、需要持续判断和工具调用,那 Opus 4.8 或 GPT-5.5 更值得。

不要拿 Opus 4.8 批量生成低价值内容。

也不要指望便宜模型稳定接手所有复杂 Agent 任务。

# 写在最后

Opus 4.8 是一次有用的更新。

但不是一次值得神化的更新。

它真正值得关注的是:effort 控制、dynamic workflows、fast mode 价格下降、长任务稳定性和工具调用习惯。

这些东西不一定适合做夸张标题,但对开发者有用。

至于跑分表,看看就行。

别只看第一屏。

脚注也要看。

最后还是那句话:

便宜模型跑量,顶级模型攻坚。

自己测,按任务选。

加油。

Last Updated: 5/29/2026, 11:07:31 AM

← Claude Opus 4.7发布 DeepSeek V4降价75%实测 →

评论

验证登录状态...

侧边栏 侧边栏
夜间模式 夜间
卡码简历 卡码简历
代码随想录 代码随想录
卡码投递表 卡码投递表🔥
2026实习校招群 2026群
添加客服微信 2026实习校招客服微信 PS:通过微信后,请发送姓名-学校-年级-2026实习/校招
支持卡码笔记 支持卡码笔记
鼓励/支持/赞赏Carl 卡码笔记赞赏码
1. 如果感觉本站对你很有帮助,也可以请Carl喝杯奶茶,金额大小不重要,心意已经收下
2. 希望大家都能梦想成真,有好的前程,加油💪