卡码笔记-最强八股文
首页
计算机基础
C++
Java
Go
大模型
  • Java面经
  • C++面经
  • 大模型面经
简历专栏
笔记广场 (opens new window)
代码随想录 (opens new window)
首页
计算机基础
C++
Java
Go
大模型
  • Java面经
  • C++面经
  • 大模型面经
简历专栏
笔记广场 (opens new window)
代码随想录 (opens new window)
  • 本栏必读

    • 卡码大模型专栏介绍
  • 入门认知

  • Prompt与调用基础

  • RAG检索增强

  • Agent智能体

  • 微调认知

  • 部署与工程化

  • 多模态入门

  • Transformer原理

    • 为什么都绕不开Transformer
    • 数据流动全解析:从输入到输出每一步
    • 三种架构详解与对比
    • Attention机制:Q、K、V是什么
    • Attention计算全过程一步步拆解
    • Multi-Head Attention:为什么一个头不够
    • 位置编码:Transformer为什么必须知道顺序
    • 残差连接、LayerNorm、FFN:缺一不可的配角
    • 一层Transformer Block长什么样
  • 手撕Transformer

  • 模型家族与Llama架构

  • 大模型动态

# 为什么所有大模型都绕不开 Transformer?

很多人刚开始学大模型时,都会有一个疑问:

为什么现在一提大模型,几乎就一定会提到 Transformer?
为什么不是 RNN?为什么不是 CNN?
BERT、GPT、T5、Llama 这些名字看起来完全不同的模型,为什么最后都能追溯到 Transformer?

如果你也有这种感觉,其实很正常。

因为大模型这条主线,表面上看是在不断冒出新名字,实际上底层很多变化,都是围绕 Transformer 这套骨架 在做增强、裁剪和改造。

这篇文章,我们就只回答一个问题:

为什么今天的大模型,几乎都绕不开 Transformer?

你不需要先会公式,也不需要先啃论文。
先把这条主线理顺,后面你再看 BERT、GPT、T5、Llama,才不会觉得它们像四种完全不同的东西。


# 一、Transformer 到底是什么?

先给大家一个大白话说法:

Transformer 本质上就是一个巨大的函数,输入为多个x,输出为一个y。

它最核心的特点就是:

  1. 它让序列里每个位置都能直接关注其他位置
  2. 它可以并行训练
  3. 它更容易被扩展到超大数据、超大参数、超大算力

这里的“序列”,你可以先简单理解成一句话里的 token 序列。

比如一句话:

我昨天在公司食堂吃饭时,突然想明白了 Transformer 为什么重要

对于传统模型来说,它通常得按顺序一点点往后读。
但 Transformer 不太一样,它会让“Transformer”这个词,在计算时直接去看“想明白了”“为什么重要”这些位置。

也就是说,它不是“一个字一个字往后传”,而更像是:

我先把整句话都摆在桌面上,再决定每个词该重点看谁。

这就是它后来能成为大模型底座的关键起点。


# 二、为什么 RNN 不适合今天的大模型?

很多初学者会先接触到 RNN、LSTM、GRU,然后自然会问:

既然 RNN 本来就是处理序列的,那为什么大模型不用它?

# 1. RNN 最大的问题:太依赖“按顺序处理”

RNN 的思路很直观:

  • 先读第 1 个 token
  • 再读第 2 个 token
  • ...
  • 一直读到最后

它每一步都依赖前一步的隐藏状态,所以天然就是串行的。 这在小模型时代还能接受,但一旦你要训练一个几百亿、几千亿参数的大模型,问题就来了:

串行意味着很难把 GPU/TPU 的并行能力真正发挥。

# 2. 长距离依赖容易“传着传着就弱了”

RNN 还有一个经典问题: 一句话太长时,前面的信息传到后面,容易越来越弱。 比如这句话:

我前天在上海参加完技术分享之后,晚上和几个做推理优化的朋友聊到凌晨,最后才真正理解,Transformer 解决的核心不是能不能做序列建模,而是能不能高效做大规模序列建模。

如果模型想理解“Transformer”对应的是后面那一大段解释,RNN 得把前面的信息一级一级往后传。链路越长,信息越容易衰减,训练也越容易不稳定。

# RNN 像什么?

像一个人拿着纸条,必须一条一条按顺序往后传。 前面传错一点,后面可能越来越模糊。

所以,RNN 在“小而精”的时代很有存在感,但在“大而强”的时代,训练范式已经不占优势了。


# 三、为什么 CNN 也没有成为大模型的主流底座?

那有人又会问:

CNN 不也很强吗?图像领域都统治那么久了,为什么不用 CNN 来做大模型?

# 1. CNN 更擅长局部模式,不擅长天然建模全局关系,想看得更远,就要不断加深网络

CNN 的核心是卷积核,它特别擅长提取局部特征。在图像里,这很合理。 因为边缘、纹理、局部结构,本来就很重要。但语言不太一样。 一句话里真正重要的关系,往往不只在局部邻域里。 比如:

我原本以为他不懂 Transformer,直到他把 Attention 的矩阵维度都手推了一遍。

这里“他不懂”和“直到后面反转”之间,是全局语义关系。 CNN 如果只看局部窗口,想把这种远距离依赖建模好,往往需要堆很多层,或者设计得很复杂。

# CNN 像什么?

像一个人拿着放大镜,每次只看局部几块区域。 想看全局,就得多看很多轮。

这样当然也能做,但问题是:

Transformer 有一种更直接的方式。

它不是“我多绕几层才看到远处”,而是:

我这一层就允许当前位置直接去看任何位置。


# 四、Transformer 克服了什么短板?

既然 RNN 和 CNN 都有明显限制,那 Transformer 到底解决了什么?

# 1. 它让“长距离依赖”变得更直接

在 Transformer 里,一个 token 不需要把信息一层层传很多步,它可以直接通过注意力机制,去“看”整段序列里和自己最相关的位置。 比如句子:

小李说他昨天终于看懂了 Transformer,因为他第一次真正理解了 Self-Attention。

这里“他”到底指谁? 模型要判断,很可能需要同时参考“小李”“昨天”“看懂了 Transformer”“理解了 Self-Attention”。

Transformer 的做法是:

  • 让“他”这个位置直接去对整句所有位置计算相关性
  • 最后把更相关的信息聚合回来

这比“顺着时间一步步传”要直接得多。

# 2. 它让训练可以并行起来

RNN 的串行方式会拖慢训练。Transformer 在训练时,可以把一整段 token 一起送进模型,同时做矩阵运算。这也意味着它天然更适合 GPU/TPU 这种擅长并行计算的硬件。

而今天的大模型,本质上就是:

架构设计 + 海量数据 + 高性能并行训练 + 工程优化

Transformer 之所以成了主流,不只是因为它“原理好”,还因为它特别符合现代计算硬件的优势。

# 3. 它更容易扩展成“大模型”

一个架构要成为大模型底座,不只要“能用”,还要“能放大”。

Transformer 在这方面特别适合:

  • 层数可以加深
  • hidden size 可以加大
  • 训练范式容易标准化

# Transformer 像什么?

像把整段内容直接铺开在会议桌上,
然后每个人都可以立刻看全局,再决定自己重点参考谁。

所以你会发现:

Transformer 不是“会做序列”这么简单,而是“更适合在大规模条件下做好序列”。

这才是它真正赢下大模型时代的原因。而今天大模型最核心的关键词,恰恰就是“规模化”。


# 五、为什么 BERT、GPT、T5、Llama 本质都和 Transformer 有关?

这也是很多人最容易混乱的地方。

它们名字完全不同,为什么都和 Transformer 有关?

因为:

它们大多不是在重新发明一套完全不同的骨架,而是在 Transformer 这个骨架上,做任务形式、训练目标、结构细节上的变化。

# 1. BERT:Transformer 的“理解型”用法

BERT 更偏向双向编码。
它会同时看左边和右边上下文,更擅长做理解任务,比如分类、抽取、匹配。

# 2. GPT:Transformer 的“生成型”用法

GPT 则更偏向自回归生成。
它通常只看前文,预测下一个 token。

# 3. T5:Transformer 的“统一文本到文本”用法

T5 更强调把很多任务都统一成 text-to-text。 翻译、摘要、问答,都变成“输入文本,输出文本”。

# 4. Llama:Transformer 的“现代大模型工程化升级版”

Llama 看起来像新一代模型,但本质上仍然属于 Transformer 家族。

它做的更多是:

  • 改进归一化方式
  • 改进位置编码
  • 调整训练细节
  • 提升训练效率与推理表现

也就是说,Llama 不是“抛弃 Transformer”,而是:

站在 Transformer 这套骨架上,做更适合现代大模型的优化。

所以BERT、GPT、T5、Llama 绝不是四个互不相干的名词,而是:

它们都是 Transformer 主线上的不同分支。


# 六、学完这个系列你能收获什么?

我们这个系列的写作主线将会从 Transformer 出发,逐步过渡到 BERT / T5 / GPT、MoE、Llama,再到更现代的架构辨析与核心模块手撕。同时为大家奉上常见的面试问法,也就是说,这个系列不会停留在“知道名词”,而是会尽量带你走到:

真的看懂、真的能写、真的能复现、真的能在面试时做到“从容回答”

希望能助力大家进步,多多斩获offer!

Last Updated: 4/16/2026, 6:06:25 PM

← 部署、推理、压测核心指标 数据流动全解析:从输入到输出每一步 →

评论

验证登录状态...

侧边栏
夜间
卡码简历
代码随想录
卡码投递表🔥
2026群
添加客服微信 PS:通过微信后,请发送姓名-学校-年级-2026实习/校招
支持卡码笔记
鼓励/支持/赞赏Carl
1. 如果感觉本站对你很有帮助,也可以请Carl喝杯奶茶,金额大小不重要,心意已经收下
2. 希望大家都能梦想成真,有好的前程,加油💪