卡码笔记-最强八股文
首页
计算机基础
C++
Java
Go
🔥大模型🔥
  • 大模型面经
  • Java面经
  • C++面经
简历专栏
代码随想录 (opens new window)
首页
计算机基础
C++
Java
Go
🔥大模型🔥
  • 大模型面经
  • Java面经
  • C++面经
简历专栏
代码随想录 (opens new window)
  • 本栏必读

    • 卡码大模型专栏介绍
  • 大模型面经

  • 大模型动态

    • MiniMax M3评测
    • DeepSeek V4发布
    • GPT-5.5发布
    • Claude Opus 4.7发布
    • Claude Opus 4.8发布
    • DeepSeek V4降价75%实测
    • DeepSeek V4-Pro永久降价75%
  • 入门认知

  • Prompt与调用基础

  • RAG检索增强

  • Agent智能体

  • 微调认知

  • 部署与工程化

  • 多模态入门

  • Transformer原理

  • 手撕Transformer

  • 模型家族与Llama架构

# MiniMax M3评测:SWE-Bench Pro 59.0,1M上下文,原生多模态,真能替代Claude Code吗?

MiniMax M3 在 2026 06 01 正式发布。

官方标题很猛:

前沿 Coding 能力,1M 上下文,原生多模态,一个模型全给你。

这句话不是普通宣传语。

它背后其实是在抢一个位置:谁能做开发者日常用得起的 Agent 模型。

过去这个位置基本被 Claude Code、GPT-5.5、Gemini 3.1 Pro 这些闭源模型占着。你想要强 Coding、长上下文、多模态、Computer Use,通常就得接受两个现实:

  • 贵
  • 封闭

MiniMax M3 这次的打法很直接:我也给你这些能力,而且价格打下来,权重也要开。

听起来很香。

但录友别急着喊“Claude Code 平替”。

我看完官方发布后,结论是:

M3 是一个非常值得测的模型,尤其适合长上下文 Coding、批量 Agent 任务和多模态工程自动化。但它还不是闭眼迁生产的模型。

我们拆开看。

官方链接在这里:https://www.minimaxi.com/blog/minimax-m3

# 一、M3 到底发了什么

MiniMax M3 不是只发了一个聊天模型。

它同时发了四件事:

  • MiniMax M3 模型:主打 Coding、Agent、1M 上下文、原生多模态
  • MSA 架构:MiniMax Sparse Attention,解决长上下文成本问题
  • MiniMax Code:配套的编程 Agent 产品
  • Token Plan 和 API:让开发者按订阅或 API 直接用

官方说 M3 是国内第一个同时具备这三类能力的模型:

第一,前沿 Coding 和 Agent 能力。

不是只会写函数,而是要能跑长任务、调用工具、持续迭代。

第二,1M 超长上下文。

不是 128K、200K,而是直接打到百万 Token。

第三,原生多模态。

支持图片、视频输入,也能操作电脑桌面。

这三个能力放在一起,才是 M3 真正想讲的故事。

不是“我某个榜单赢了谁”,而是:

以后 Agent 不是只读文字,它要能看图、看视频、读长文档、操作软件,还要连续干很久。

这条路是对的。

但要注意一个细节:官方文末说,技术报告和模型权重会在接下来 10 天内更新和开源。

所以在 2026 年 6 月 1 日发布当天,M3 更准确的状态是:

API 已开放,权重承诺开放,但还没到“权重已经摆在那儿随便验”的阶段。

这个区别很重要。

# 二、Coding 跑分:最亮的是 SWE-Bench Pro

MiniMax M3 最容易传播的数字,是这个:

SWE-Bench Pro:59.0%。

官方给出的对比里,M3 超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Claude Opus 4.7。

这确实很强。

SWE-Bench Pro 测的不是“写个二分查找”。

它更接近真实软件工程:给模型一个真实工程问题,让它理解代码库、定位问题、改代码、跑验证。

所以这个分数有含金量。

官方还列了几项 Coding 和 Agent 相关指标:

评测 MiniMax M3
SWE-Bench Pro 59.0%
Terminal Bench 2.1 66.0%
SWE-fficiency 34.8%
KernelBench Hard 28.8%
MCP Atlas 74.2%

这里面要分开看。

SWE-Bench Pro 是亮点。

它说明 M3 在真实工程修复上已经不是“便宜但弱”的模型,而是能摸到闭源前沿模型边缘了。

Terminal Bench 2.1 没有领先。

官方图里,M3 是 66.0,Opus 4.7 是 66.1,GPT-5.5 是 78.2,Gemini 3.1 Pro 是 70.0。

这说明 M3 在终端执行、复杂工具链、长链路操作上,还没到 GPT-5.5 那个层级。

所以别把“M3 在 SWE-Bench Pro 接近 Opus”直接翻译成“M3 的 Agent 长任务全面接近 Opus/GPT”。

这两个不是一回事。

一句话:M3 的代码修复能力很值得重视,但全链路 Agent 还要继续实测。

# 三、MSA:M3 真正值得看的技术点

我觉得 M3 最值得看的不是某个单点跑分,而是 MSA。

MSA 全称 MiniMax Sparse Attention。

它想解决的是长上下文最难受的问题:

上下文越长,全注意力的计算和成本涨得越快。

100 万 Token 听起来很爽,但如果每次都按全注意力硬算,延迟和成本会直接劝退。

MiniMax 的方案是做稀疏注意力。

简单说,不是让每个 Query 都看所有 KV,而是先做一轮索引和筛选,找到更值得看的块,再对选中的块做注意力。

MiniMax Sparse Attention架构图,展示Index Branch和Sparse Branch如何筛选KV块

官方给出的说法很激进:

  • 在 100 万上下文下,M3 每 Token 计算量只有上代模型的 1/20
  • Prefilling 阶段超过 9 倍加速
  • Decoding 阶段超过 15 倍加速
  • 多个对照实验里,MSA 大部分能力与全注意力打平

这才是长上下文能不能进入日常开发的关键。

录友要明白,1M 上下文不是只看“能不能塞进去”,还要看“塞进去以后能不能用得起、等得起、找得准”。

如果 MSA 真能稳定成立,M3 的价值就不只是一个模型,而是把超长上下文 Agent 的成本曲线往下压了一截。

这对大代码库、长文档、长视频、多轮工具调用都很关键。

但也别神化 1M。

上下文窗口大,不代表你可以把整个仓库无脑塞进去。

我们之前讲 Claude Code 大代码库时也说过:大项目靠的不是“塞满上下文”,而是上下文治理。

M3 降低了长上下文成本,但不会替你自动解决信息筛选、任务拆分、验证闭环这些工程问题。

# 四、长任务 Demo 很猛,但要看清边界

官方展示了几个实际任务。

第一个是论文复现。

MiniMax 把 ICLR 2025 Outstanding Paper Award 论文《Learning Dynamics of LLM Finetuning》丢给 M3,让它独立复现。

结果是:

  • 自主运行接近 12 小时
  • 产出 18 次 commit
  • 生成 23 张实验图表
  • 跑通核心实验
  • 复现 SFT 阶段趋势、DPO squeezing 效应和 Extend 缓解方法

MiniMax M3论文复现任务过程图,展示12小时内分阶段推进实验和得分变化

这个任务很适合展示 M3 的三件事:

长上下文:论文、代码、日志、实验结果都要长期保留。

多模态:论文里的曲线图、表格和公式不能只当纯文本看。

Agent 能力:不是一次回答,而是持续实验、失败、调整、再验证。

第二个是 CUDA 算子优化。

官方让 M3 优化 Hopper 架构上的 FP8 GEMM kernel,起点只有任务描述、benchmark 脚本和一个跑不起来的 Triton 骨架。

最终结果:

  • 连续执行约 24 小时
  • 147 次 benchmark 提交
  • 1959 次工具调用
  • 峰值利用率从 7.6% 提升到 71.3%
  • 相比原始版本实现 9.4 倍加速

这个 Demo 很硬。

因为 CUDA kernel 优化不是普通 CRUD。

它需要理解硬件、访存、流水线、autotune、CUDA Graph、persistent kernel,还要根据 benchmark 反馈持续调整。

但我还是要泼一点冷水:

这些都是官方内部任务和官方展示结果。

不是说它假,而是说它还不等于你自己的业务一定能复现同样效果。

Agent 模型最容易出现的问题就是:

  • 官方 Demo 很顺
  • 真实项目卡在环境、权限、依赖、脏数据、边界条件
  • 最后人工接盘

所以 M3 最正确的打开方式不是直接替换主力模型。

而是拿你自己的任务集测:

  • 修真实 bug
  • 改多文件需求
  • 跑单元测试
  • 处理失败日志
  • 读长文档后生成结构化结果
  • 多轮需求变更后看它是否偏航

能过你自己的评测,才叫能用。

# 五、多模态和 Computer Use:想象空间很大,风险也很大

M3 是原生多模态模型。

官方说它从 Step 0 开始做多模态混合训练,支持图片和视频输入,还能操作电脑桌面。

这点对 Coding Agent 很关键。

以前很多 AI 编程工具主要读文本:

  • 代码
  • 日志
  • 文档
  • issue
  • terminal 输出

但真实工作里有大量东西不是纯文本:

  • 页面截图
  • 设计稿
  • 报表
  • PDF 图表
  • Excel
  • 监控面板
  • 视频教程
  • ERP、CRM、本地客户端

如果 Agent 能看懂这些,再配合 Computer Use,就能做很多以前很别扭的自动化。

比如官方举的场景:

“帮我打开本地 ERP 客户端,按这份 Excel 批量录入发票信息。”

这类任务不是单纯写代码。

它是跨文件、跨应用、跨系统的自动操作。

这也是未来 Agent 的方向。

但录友一定要记住:

能操作电脑,不等于应该默认给它操作电脑。

Computer Use 场景必须配权限边界:

  • 哪些软件能打开
  • 哪些按钮能点
  • 哪些数据能读
  • 哪些动作必须人工确认
  • 出错后怎么回滚
  • 操作日志怎么审计

越强的 Agent,越需要工程护栏。

否则不是提效,是把事故自动化。

# 六、价格:M3 最现实的杀伤力

模型能力能不能打,要看评测。

模型能不能进入日常,要看价格。

MiniMax 这次的价格确实很有攻击性。

Token Plan 三档:

套餐 价格 M3 月度用量
Plus ¥49/月 约 6 亿 token
Max ¥119/月 约 18 亿 token
Ultra ¥469/月 约 55 亿 token

官方说,如果按相同价格算,约是 Claude 订阅的 15 倍用量。

MiniMax M3 Token Plan套餐图,展示Plus、Max、Ultra三档月度token用量

API 也按上下文长度分两档:

模型上下文 输入价格 输出价格 缓存读取
MiniMax M3 ≤512K ¥4.20 / 百万 tokens ¥16.80 / 百万 tokens ¥0.84 / 百万 tokens
MiniMax M3 512K-1M ¥8.40 / 百万 tokens ¥33.60 / 百万 tokens ¥1.68 / 百万 tokens

MiniMax M3 API价格图,展示512K以内和512K到1M两档输入输出缓存价格

这个价格对两类人特别有吸引力。

第一类,高频 AI 编程用户。

每天让 Agent 读代码、改文件、跑测试、总结 PR,Token 消耗很大。

如果 M3 质量够用,成本会明显下降。

第二类,批量任务用户。

比如批量审代码、批量处理文档、批量生成测试、批量做多模态理解。

这类任务最怕单次效果不错,但跑一万次以后账单爆炸。

M3 的价格让很多原来舍不得跑的任务,可以进入“先跑起来看看”的阶段。

但价格便宜也有一个副作用:

很多人会忍不住把任务全丢给它。

我的建议是:

低风险、高频、可验证的任务先上 M3;高风险、强推理、强业务边界的任务先做 A/B 评测。

别拿生产环境当 benchmark。

# 七、MiniMax Code:重点不是又一个代码编辑器

MiniMax Code 这次也跟着更新。

官方说它是专为 M3 设计、并与 M3 一起训练的 Agent 产品。

它最值得看的不是“能不能补全代码”,而是 Agent Team。

官方描述里,Agent Team 可以把大任务拆成多阶段、可并发、可动态调整的 Workflow,再通过 Producer + Verifier 的对抗式 Harness 循环持续产出、反思、纠错。

这和 Claude Code 近期的 Dynamic Workflows 是同一个大方向。

未来 AI 编程工具不会只是一个模型从头干到尾,而是多个 Agent 分工协作。

一个负责读仓库。

一个负责定位影响范围。

一个负责改代码。

一个负责跑测试。

一个负责挑错。

主 Agent 负责合并判断。

这比单 Agent 长时间硬跑更像真实工程。

不过这也意味着一个现实问题:

Agent 越多,Token 越多,错误传播链路也越长。

所以 Agent Team 的关键不是“看起来很智能”,而是:

  • 子任务拆得准不准
  • 中间结果能不能验证
  • Verifier 有没有真的挑错
  • 失败后能不能回滚
  • 用户能不能插手纠偏

M3 这次把模型、产品、价格一起推出来,是对的。

因为单独一个模型不够。

Coding Agent 拼到最后,拼的是模型能力、工具链、上下文管理、执行 Harness 和价格。

# 八、M3 适合谁,不适合谁

如果你问我 M3 值不值得试。

答案是:值得。

但怎么试,要分场景。

适合优先试 M3 的场景:

  • 日常代码生成、重构、小 bug 修复
  • 大文档、大代码库的低风险分析
  • 批量代码审查、批量测试生成
  • 长上下文摘要、日志分析、资料归纳
  • 带图片、视频、PDF 的多模态理解任务
  • 成本敏感的 Agent 原型验证

这些任务有一个共同点:

可以验证,失败成本相对可控。

比如生成测试,跑不过就退回来。

比如代码审查,人工可以抽检。

比如日志归纳,能和原始日志对照。

不建议直接迁 M3 的场景:

  • 线上高风险自动改代码
  • 无人工确认的 Computer Use
  • 金融、医疗、合同等强责任场景
  • 强依赖通用知识准确性的问答
  • 复杂长任务的唯一主模型

这些任务不是不能用 M3。

而是不能只看官方榜单就上。

你至少要有自己的评测集、回归集、人工抽检和失败兜底。

# 九、我的判断:M3 是价格战,也是 Agent 战

MiniMax M3 这次最有意思的地方,不是“某个榜单赢了谁”。

而是它把几个趋势合到了一起:

模型能力往 Agent 任务靠。

不只是回答问题,而是长期执行、工具调用、持续验证。

上下文窗口继续变大。

但重点从“最大能塞多少”变成“长上下文能不能便宜、快速、稳定地用”。

多模态进入开发者工作流。

Agent 不只读代码,还要看截图、看文档、看视频、操作软件。

价格开始逼近日常使用。

当 Token 便宜到一定程度,很多原来“不值得自动化”的任务,突然值得了。

所以 M3 的意义,不是简单替代 Claude Code。

它更像是在问整个市场一个问题:

如果一个模型同时给你 Coding、1M 上下文、多模态和低价格,你还愿意为闭源前沿模型付多少溢价?

这才是压力。

最后给录友一个实用结论:

M3 可以进入你的模型候选池,但不要直接当成唯一主力。

先拿真实任务测。

测三件事:

  • 能不能完成任务
  • 出错时能不能自救
  • 成本和延迟是不是真的划算

如果这三项都过了,M3 就不是“便宜玩具”。

它会是一个很有竞争力的工程模型。

但如果你只看 SWE-Bench Pro 59.0 就全量迁移,那不是拥抱 AI。

那是把生产环境交给热搜。

# 参考资料

  • MiniMax M3 官方发布:https://www.minimaxi.com/blog/minimax-m3
  • MiniMax M3 模型页:https://www.minimaxi.com/models/text/m3
Last Updated: 6/2/2026, 4:04:58 PM

← 大模型面经汇总 DeepSeek V4发布 →

评论

验证登录状态...

侧边栏 侧边栏
夜间模式 夜间
卡码简历 卡码简历
代码随想录 代码随想录
卡码投递表 卡码投递表🔥
2026实习校招群 2026群
添加客服微信 2026实习校招客服微信 PS:通过微信后,请发送姓名-学校-年级-2026实习/校招
支持卡码笔记 支持卡码笔记
鼓励/支持/赞赏Carl 卡码笔记赞赏码
1. 如果感觉本站对你很有帮助,也可以请Carl喝杯奶茶,金额大小不重要,心意已经收下
2. 希望大家都能梦想成真,有好的前程,加油💪