# 大模型学习路线：程序员从零入门到上手项目，该按什么顺序学

经常有录友问我同一个问题：我是做后端的，想转大模型，到底该从哪学起？

接着往往还有一连串：要不要先学 PyTorch？要不要先补数学？是不是得先看懂 Transformer 论文？微调是不是必须会？

我先把结论说在前面：这些大概率都不是你的第一步。

做大模型"应用"开发，和做"算法/训练"是两条路。你要补的不是数学，而是一条从"会调一次大模型"到"能搭一套能上线的系统"的完整链路。这篇就把这条路线讲清楚——每一步学什么、为什么先学它、哪些要深挖、哪些点到为止就行。

如果你还没搞清楚自己要走哪条路，建议先看这两篇打底：大模型应用开发、算法岗、开发岗到底什么区别和大模型应用开发到底在做什么。想清楚定位，再开始走路线，不然容易学偏。

先把整条路线放出来，下面每一步都对着这张图讲：

大模型学习路线：程序员从零入门的七个阶段

# 先说一个最常见的误区

很多人一上来就扎进 Transformer 推导、注意力公式、反向传播，啃了两周，啃不动，劝退了。

顺序反了。

你现在用的大模型，是别人已经训练好的。你要做的是"用它 + 接业务 + 上工程"，而不是"造它"。所以正确的顺序是先应用、后原理：先把它当黑盒用起来、用顺手，建立起整套链路的直觉，再回头拆开看里面是什么。等你做过 RAG、踩过 Agent 的坑，再去看 Transformer，会发现"哦原来那个东西是为了解决我遇到的问题"——这时候才学得进去。

所以下面这条路线，是按依赖关系排的：前一步是后一步的地基，缺了走不动。

# 第一阶段：入门认知——先把地图看清楚

目标：花最短的时间，搞清楚大模型这个领域有哪些概念、它们之间什么关系、你要做的岗位在整张地图的哪个位置。

这一步不要写代码，就是建立认知框架。最怕的是术语满天飞——Prompt、Token、RAG、Agent、MCP、微调、Embedding——每个单独搜都能搜到，但串不起来。

建议从这篇开始，它把核心概念串成一条进化线：大模型关键词全解：从 Prompt 到 Agent 到 MCP，一篇搞懂 13 个核心概念。

然后补几块认知拼图：

大模型到底是怎么训练出来的——知道它是怎么来的，才理解它为什么会幻觉
大模型 API 到底怎么计费——这是你以后天天要算的账
大模型蒸馏到底是什么——理解小模型、降本是怎么回事

这一阶段不用久，一周以内，目的是不再"听不懂别人在说什么"。

# 第二阶段：Prompt 与调用基础——从"会聊天"到"会开发"

目标：能用代码把一次大模型调用接进你的程序，并且让它稳定地输出你要的格式。

很多人以为调大模型就是发一句话拿一句话，真做起来才发现：输出格式不稳定、要流式返回、要让它调工具……这些才是应用开发的日常。

按这个顺序走：

从聊天框到业务系统：一个请求是怎么被大模型处理的
结构化输出：JSON Schema 怎么约束——业务系统离不开稳定的结构化输出
同步、异步、流式输出怎么选
Function Calling 详解：大模型怎么调用工具——这是后面 Agent 的地基

学完这一阶段，你已经能写出一个"接了大模型、能调工具、输出可控"的小程序了。这是从读者变成开发者的分水岭。

# 第三阶段：RAG 检索增强——大模型应用的第一个硬骨头

目标：能独立设计一套 RAG 系统，知道它每一环在干什么、出了问题怎么定位。

为什么 RAG 排在 Agent 前面？因为它是企业里落地最多、面试问得最狠的方向，而且它把"检索 + 拼上下文 + 生成"这条链路讲透了，是理解后面一切的基础。

先搞清楚为什么需要它，再一环一环拆：

这一阶段是重头戏，别赶进度。RAG 答不准的排查能力，是面试里最能拉开差距的地方。

# 第四阶段：Agent 智能体——从"答一句"到"自己干完一件事"

目标：理解 Agent 的设计思路，知道什么时候该上 Agent、什么时候根本不需要，以及它为什么容易翻车。

有了第二阶段的 Function Calling 和第三阶段的 RAG，Agent 才学得动——因为 Agent 本质就是"会调工具 + 会用记忆 + 会自己决定下一步"。

如果你就是冲着 Agent 来的，这一阶段我单独拆了一篇更细的 AI Agent 学习路线，把下面这些文章该按什么顺序学讲透了，建议照那篇走。

Agent 到底是什么？和普通大模型问答有什么区别
ReAct、Reflection、规划执行：三种常见思路怎么选
Agent vs Workflow：什么时候根本不需要 Agent——这一篇能帮你少踩很多"过度 Agent 化"的坑
工具设计决定 Agent 上限
MCP 协议详解：和 Function Calling 有什么区别
Agent 为什么容易翻车
Agent 的记忆：短期、长期、RAG 到底什么关系
Agent 怎么评估：任务完成率与可靠性度量

# 第五阶段：微调选型——不亲手训，但要懂边界

目标：知道什么场景该微调、什么场景 RAG 就够了，能在面试里把 SFT、LoRA、RLHF 的区别和适用边界讲清楚。

注意这里的关键词是**"认知"**，不是"亲手训一个"。对应用开发者来说，绝大多数问题用 Prompt + RAG 就解决了，微调是最后才考虑的手段。但面试必问，所以你得懂选型边界：什么时候微调、用哪种微调、要多少数据、成本多大。

# 第六阶段：部署与工程化——把 Demo 变成能扛流量的系统

目标：理解一套大模型服务上线后要关注哪些指标，高峰期卡顿、响应忽快忽慢该往哪查。

这是应用开发者真正的护城河。很多人 Demo 做得漂亮，一问部署、压测、扩容就哑火。面试官也最爱从这里往深里钻。

大模型部署、推理、压测核心指标：TPS、首字延迟、吞吐、并发

为什么大模型系统特别关注"首字延迟"？vLLM 又优化了什么？这些都是工程化的入门必答题。

# 第七阶段：Transformer 原理——回头拆开黑盒

目标：从应用开发者的视角理解大模型内部结构，面试被问到能讲清楚，手撕代码不慌。

走到这里你才回来看原理，而且会发现轻松多了——因为前面每一个概念你都用过，现在只是把它们对应到内部结构上。

先理解结构：

再手撕代码，面试有底气：

完整的 Transformer 原理篇和手撕篇，都在卡码大模型专栏首页按章节列好了，照着顺序走即可。

# 这条路线要走多久

不骗你，没有"21 天速成"。但也没那么吓人。

如果你已经是有经验的后端，每天能挤出一两个小时，第一到第四阶段（入门、调用、RAG、Agent）大致一到两个月能走完，这时候你已经能独立做出一个像样的大模型应用项目，也能应付大部分应用开发岗的面试。后面三个阶段（微调认知、部署、Transformer）是边做项目边补，越往后越是"用到再深挖"。

关键不是快，是顺序别乱、每一步落到手上有产出：学完调用就写个小工具，学完 RAG 就搭个知识库，学完 Agent 就做个能自己干活的小助手。简历上的项目，就是这么一篇一篇攒出来的。

# 一边学一边准备求职

学到能做项目，下一步就是把它变成简历和面试里的筹码。

大模型相关的面试题，我整理在了大模型面经里；简历怎么写，可以看简历专栏。学和找工作不要分两段，边学边按四要素把项目写进简历，效率最高。

我也在知识星球 (opens new window)里辅导过很多录友转大模型，路线、项目、面试一路盯着改，少走弯路。

照着这条路线走，一步一步来，你会发现大模型没那么玄。

← Claude Code从入门到工程实践大模型关键词全解 →

验证登录状态...