# 大模型微调面试怎么答？SFT、RLHF、DPO、PPO 到底还有没有必要？

最近知识星球 (opens new window)有录友分享了一道很典型的大模型面试题：

"如今基模能力越来越强的情况下，你认为 RLHF 或者 SFT 的破局点是什么？"

面试官还会继续追问：

"随着通用基模能力迭代越来越快，垂类场景里专门做的 RL 可能很快被抹平，还有没有必要坚持 RL/SFT 这类定制优化？"

这个问题很有意思。

因为它表面是在问 SFT、RLHF、RL。

但实际上，它考的不是你会不会背概念。

它真正想看的是：你怎么理解大模型微调的价值，以及在基模越来越强的情况下，你有没有工程判断力。

很多录友一听到微调，就开始背：

SFT 是监督微调
RLHF 是人类反馈强化学习
PPO 是一种强化学习算法
DPO 是一种偏好优化方法

这些都对。

但只会背这些，面试官不会满意。

因为现实项目里，最关键的问题不是"这些名词分别叫什么"。

而是：

什么场景该做微调？什么场景不该做微调？基模变强后，微调到底还剩什么价值？

这篇文章，我们就系统聊一下大模型微调面试怎么答。

不是写论文。

也不是堆公式。

而是从面试和工程落地角度，把 SFT、RLHF、RL、PPO、DPO 这些概念讲清楚，再讲清楚基模变强后，它们到底还有没有必要。

# 目录

先说结论：微调没有消失，只是价值变了
先把名词讲清楚：SFT、RLHF、RL、PPO、DPO 是什么
微调、Prompt、RAG 到底怎么选
为什么很多垂类微调会被基模抹平
SFT 的破局点：从补知识变成控行为
RLHF / RL 的破局点：从变聪明变成控偏好和控决策
DPO 为什么现在经常被提到
什么场景不建议做微调
工程上怎么判断微调有没有收益
面试官可能怎么追问
面试怎么答

# 一、先说结论：微调没有消失，只是价值变了

大模型优化体系全景图

先给结论。

基模越来越强，不是让 SFT、RLHF、RL 消失，而是让它们从"补能力"转向"控行为、控偏好、控成本、控风险"。

这句话很重要。

以前很多团队做 SFT，是因为基模能力不够。

模型不会客服话术，就微调。

模型不会写某类报告，就微调。

模型不会按业务格式输出，也微调。

但现在通用基模越来越强，很多任务你用 Prompt 就能做得不错。

甚至你辛辛苦苦微调一个垂类模型，下一代基模一发布，效果直接追上甚至超过你。

这就是面试官说的"被抹平"。

但这不代表微调没有价值。

它只是说明：低质量、低壁垒、只靠几千条 QA 堆出来的垂类微调，越来越不值钱。

真正还有价值的是这些方向：

固定业务流程里的稳定输出
特定行业的话术、风格和口径
小模型在固定场景里的降本提效
安全拒答、风险边界、合规偏好
Agent 工具调用、动作选择、多步决策
有明确 reward 的代码、数学、检索、操作任务

所以面试里不要说："基模变强了，SFT/RLHF 就没必要了。"

也不要说："微调永远有用，必须坚持做。"

这两个回答都太绝对。

更好的回答是：

通用能力会被基模抹平，但业务行为、偏好、成本和风险控制不会自动被抹平。微调的价值要从这些地方找。

# 二、先把名词讲清楚：SFT、RLHF、RL、PPO、DPO 是什么

SFT、RLHF、RL、PPO、DPO概念关系图

很多录友不懂这些名词。

这很正常。

因为这些概念经常被放在论文、训练框架、技术博客里讲，一上来就是 loss、reward、policy、KL penalty。

面试里没必要这么讲。

你要先能用人话解释清楚。

# 1. SFT：监督微调

SFT，全称是 Supervised Fine-Tuning，监督微调。

一句话解释：

SFT 就是给模型看高质量示范，让模型模仿这种回答方式。

比如你准备一批数据：

用户问题：帮我判断这个订单是否可以退款
标准答案：请先提供订单号，我会查询订单状态、支付时间和退款规则，再判断是否满足退款条件。

1
2

模型看多了这种样本，就会学到：

遇到退款问题，不要直接下结论
先要订单号
再查订单状态
最后按规则判断

所以 SFT 的本质是"学示范"。

它适合解决这些问题：

输出格式不稳定
业务话术不统一
固定任务流程学不会
工具调用格式需要统一
小模型需要学习大模型的回答范式

但 SFT 不是万能知识库。

这一点一定要说清楚。

很多人把业务知识、政策文档、产品说明硬塞进 SFT 数据里，希望模型记住。

这很容易出问题。

因为业务知识会变。

今天退款规则是 7 天，明天可能改成 15 天。

你把规则训进模型里，后面规则一变，模型记忆就过期了。

这类动态知识，更适合用 RAG 或工具查询。

之前写 RAG落地最难的地方在哪时讲过，RAG 更适合处理外部知识和动态文档。

所以你可以这样理解：

SFT 更适合教模型"怎么答"，不适合硬塞一堆会频繁变化的业务知识。

SFT训练流程图

# 2. RLHF：基于人类反馈的强化学习

RLHF，全称是 Reinforcement Learning from Human Feedback，基于人类反馈的强化学习。

一句话解释：

RLHF 不是直接教模型标准答案，而是让模型学会人类更喜欢哪种答案。

比如同一个问题，模型生成了两个回答。

A 回答：

可以退款。

B 回答：

需要先确认订单状态、支付时间和商品类型。如果订单满足平台退款规则，可以发起退款；如果缺少信息，需要用户补充订单号。

人类标注员认为 B 更好。

那模型就学到：遇到这类问题，不能武断回答，要更谨慎、更完整、更符合业务流程。

RLHF 的典型流程是：

先用 SFT 训练一个基础可用模型
对同一个问题生成多个候选回答
人类标注哪个回答更好
用这些偏好数据训练 Reward Model
再用 PPO 这类强化学习算法优化模型

这里的重点不是公式。

重点是：RLHF 解决的是偏好问题。

什么叫偏好问题？

就是多个答案可能都没错，但业务更喜欢其中一种。

比如：

更礼貌，还是更直接
更保守，还是更积极
先解释原因，还是先给结论
遇到风险问题，是拒答还是给安全替代方案
客服回答，是强调用户体验还是强调平台规则

这些问题没有唯一标准答案。

这就是 RLHF 的价值。

# 3. RL：强化学习

RL，就是 Reinforcement Learning，强化学习。

它比 RLHF 更宽泛。

一句话解释：

RL 是让模型在环境里做动作，环境给奖励，模型学会让奖励更高。

不一定有人类反馈。

只要你能定义 reward，就可以做 RL。

比如代码生成任务：

代码能跑通，奖励高
单测通过，奖励高
代码报错，奖励低

数学推理任务：

最终答案正确，奖励高
推理过程违反规则，奖励低

Agent 工具调用任务：

调对工具，奖励高
参数合法，奖励高
任务完成，奖励高
调错工具、越权操作，奖励低

所以 RL 的核心不在于"人类喜不喜欢"。

而在于：有没有明确的环境反馈或可验证目标。

如果 reward 设计清楚，RL 很有价值。

如果 reward 很模糊，RL 就容易训歪。

# 4. PPO：一种常见的 RL 优化算法

PPO，全称 Proximal Policy Optimization。

面试里你不需要推公式。

你只要讲清楚它在 RLHF 里扮演什么角色。

一句话解释：

PPO 是一种强化学习优化算法，用来在提升 reward 的同时，限制模型不要偏离原模型太远。

为什么要限制？

因为大模型很脆。

如果你只让它追求 reward，很可能出现"奖励黑客"。

比如 Reward Model 偏好长答案，模型就疯狂输出长篇废话。

Reward Model 偏好礼貌语气，模型就每句话都过度客气。

Reward Model 有漏洞，模型就学会钻漏洞。

PPO 的思想是：可以优化，但别一步迈太大。

既要提高 reward，又要尽量保留原模型的语言能力和通用能力。

所以面试里可以这样说：

PPO 不是一种偏好数据，也不是一种标注方式，而是 RLHF 训练阶段常用的优化算法。

# 5. DPO：直接偏好优化

DPO，全称 Direct Preference Optimization，直接偏好优化。

一句话解释：

DPO 是直接用偏好对训练模型，让模型更偏向好回答，不再单独训练 Reward Model，也不跑复杂的 PPO 流程。

还是刚才那个例子。

同一个问题下：

A 回答较差
B 回答更好

DPO 直接用这个偏好对训练模型，让模型以后更倾向于生成 B 这类答案。

相比传统 RLHF，DPO 的工程流程更简单：

不需要单独训练 Reward Model
不需要复杂的 PPO 训练
训练更稳定
工程成本更低

但它也不是万能的。

DPO 很依赖偏好数据质量。

如果你的偏好数据本身就乱，今天喜欢短答案，明天喜欢长答案，标注标准不一致，DPO 也会学乱。

所以你可以把 DPO 理解成：

DPO 是一种更轻量的偏好优化方法，适合在已有偏好数据比较可靠的情况下，让模型对齐某种回答偏好。

RLHF和DPO对比图

# 三、微调、Prompt、RAG 到底怎么选

面试官很喜欢问这个问题。

"这个场景你会用 Prompt、RAG，还是微调？"

这个问题非常考察工程判断。

你不能一上来就说："我会微调。"

更不能说："都用 RAG。"

我的建议是按问题类型判断。

Prompt、RAG、SFT、DPO、RLHF和RL选择决策树

# 1. 能靠 Prompt 解决，就先别训练

如果只是让模型输出更清晰、更结构化、更符合某个格式，先试 Prompt。

比如：

按 JSON 输出
回答时先给结论再解释
不知道就说不知道
引用资料来源

这些先用 Prompt 约束。

如果 Prompt 已经能稳定解决，就没必要上 SFT。

因为训练有成本。

要准备数据、清洗数据、跑训练、评测、上线、回滚。

不是写几条样本就完事。

# 2. 知识频繁变化，优先 RAG 或工具

如果问题核心是外部知识，比如产品文档、公司制度、价格规则、合同条款，优先考虑 RAG 或工具查询。

因为知识会变。

今天文档更新，RAG 重新入库就能生效。

但如果你把知识训进模型里，更新就麻烦了。

还容易出现旧知识残留。

所以：

知识问题优先 RAG，行为问题再考虑 SFT。

# 3. 行为稳定性不够，再考虑 SFT

如果你发现模型明明知道规则，但输出就是不稳定。

今天按格式答，明天格式乱了。

今天先问用户补充信息，明天直接下结论。

今天会按工具调用规范输出，明天又自由发挥。

这种情况就可以考虑 SFT。

因为你要的不是新知识，而是稳定行为。

# 4. 多个答案都能用，但你有明确偏好，考虑 DPO / RLHF

比如客服场景。

同一个用户投诉，模型可以：

先道歉
先解释规则
先给补偿方案
先询问订单信息

这些答案可能都不算错。

但你的业务会有偏好。

比如平台希望先安抚用户，再收集信息，再给处理路径。

这种就不是简单 SFT 能完全解决的。

它更像偏好对齐问题，可以考虑 DPO 或 RLHF。

# 5. 有可验证 reward，才考虑更强的 RL

如果任务有明确反馈，RL 才更有意义。

比如：

代码能否通过单测
工具调用是否成功
检索结果是否命中答案
Agent 是否完成任务
数学答案是否正确

这些场景可以设计 reward。

但如果只是"我感觉这个回答更好"，reward 很模糊，直接上 RL 就很危险。

# 四、为什么很多垂类微调会被基模抹平

现在我们回到面试官的问题：

"基模能力越来越强，垂类 SFT / RL 会不会很快被抹平？"

基模变强后的微调价值迁移图

答案是：会。

但不是全部。

被抹平的，通常是低壁垒的微调。

哪些微调会被抹平哪些仍有价值

# 1. 只补通用知识的微调，容易被抹平

比如你用几千条普通问答，教模型回答 Java、MySQL、Redis、操作系统。

这种很容易被新基模覆盖。

因为通用知识本来就在基模能力范围内。

你训练半天，下一代基模参数更大、数据更多、后训练更强，直接就追上了。

这类微调没有护城河。

# 2. 只调风格但没有评测，也容易被抹平

有些团队说自己做了行业微调。

但你问它："提升了多少？"

答不上来。

再问："在哪些 case 上提升？"

也答不上来。

最后只是感觉回答更像客服、更像医生、更像律师。

这种很危险。

没有评测集，没有线上指标，没有错误归因，就很难证明微调价值。

基模一升级，你也不知道是不是该保留自己的模型。

# 3. 数据质量低的 SFT，甚至会拖累模型

SFT 不是样本越多越好。

如果数据里有大量低质量答案、过时答案、互相矛盾的答案，模型会一起学进去。

很多垂类微调失败，不是模型不行。

是数据太脏。

拿一堆客服聊天记录直接训，里面有：

坏话术
错误处理流程
历史规则
人工客服的随意表达
用户隐私信息

这种数据不清洗就训练，效果不稳定很正常。

低质量数据不是资产，是污染源。

# 4. 没有业务闭环的 RL，也容易变成样子工程

RL 听起来高级。

但如果你没有环境、没有 reward、没有评测、没有线上反馈，RL 就只是一个名词。

比如你说要做 Agent 的 RL。

那面试官可能会问：

reward 怎么定义？
成功和失败怎么判定？
中间步骤怎么给分？
工具调用错了怎么惩罚？
如何避免模型为了 reward 钻漏洞？
线上怎么监控策略退化？

如果这些答不上来，说明你还没真正想清楚。

# 五、SFT 的破局点：从补知识变成控行为

那 SFT 还有没有必要？

有。

但价值点要换。

SFT 的破局点，不是让模型知道更多，而是让模型在固定场景里更稳定地按你希望的方式做事。

# 1. 固定输出格式

很多业务系统需要结构化输出。

比如：

{
  "category": "refund",
  "confidence": 0.86,
  "need_human": false,
  "reason": "订单仍在可退款时间内"
}

1
2
3
4
5
6

强基模能不能输出？

能。

但生产系统要的是稳定。

字段不能丢。

枚举不能乱。

置信度不能瞎填。

如果 Prompt 约束不够稳定，可以用 SFT 让模型学固定格式。

# 2. 固定业务流程

比如客服退款流程：

先识别意图
再询问订单号
调工具查订单
判断退款规则
高风险动作要求确认

这类流程不是简单知识问答。

它要求模型稳定按步骤行动。

这时 SFT 可以训练模型形成固定任务范式。

当然，真正执行动作时还要靠工具和系统校验。

之前在 Agent系统如何约束大模型幻觉里讲过，Agent 不能只靠 Prompt，工具调用和高风险动作必须有工程层拦截。

SFT 只能让模型更倾向于正确流程，不能替代权限、审批、回滚。

# 3. 行业话术和品牌口径

有些业务不只是要求答对。

还要求表达方式符合品牌。

比如金融、医疗、政务、教育。

这些场景对措辞很敏感。

同样一句话，"你不能办" 和 "当前条件暂不满足办理要求，可以补充以下材料后重新申请" 给用户的感受完全不同。

SFT 可以让模型学习行业话术和品牌口径。

这不是通用基模自动就能完全对齐的。

# 4. 小模型降本

这是很现实的价值。

大模型效果好，但贵、慢。

如果一个业务场景很固定，比如工单分类、标签抽取、简单客服问答，你可以用大模型生成高质量示范数据，再 SFT 一个小模型。

小模型上线后承担大部分流量。

复杂问题再路由到大模型。

这时 SFT 的价值不是超过最强基模。

而是：用更低成本，在固定场景里达到够用效果。

# 六、RLHF / RL 的破局点：从变聪明变成控偏好和控决策

RLHF 和 RL 的价值，也不能简单理解成"让模型更聪明"。

基模越来越强后，通用推理能力确实会被持续提升。

但偏好和决策，不一定会自动符合你的业务。

# 1. RLHF 的价值是对齐偏好

很多业务问题没有唯一正确答案。

比如用户投诉：

先道歉还是先解释规则？
要不要主动给补偿？
什么情况下转人工？
拒绝用户时怎么表达？

这类问题靠 SFT 可以学一些示范。

但更本质的是偏好对齐。

你需要让模型知道：业务更喜欢哪种回答。

这就是 RLHF 或 DPO 的空间。

# 2. RL 的价值是优化多步决策

Agent 场景里，RL 更有想象空间。

因为 Agent 不是只生成一句话。

它要做一串动作：

理解任务 → 选择工具 → 填参数 → 读取 Observation → 判断下一步 → 输出结果

这中间每一步都可能错。

比如：

工具选错
参数填错
检索策略错
过早下结论
不该执行写操作却执行了

如果你能定义任务成功率、工具调用成功率、参数合法率、用户确认率、人工接管率，就可以把这些指标变成训练反馈。

这时 RL 不是为了让模型"更会聊天"。

而是让 Agent 在多步任务里更会做决策。

# 3. 有明确 reward 的任务，RL 更有价值

RL 最怕 reward 模糊。

但有些任务 reward 很清楚。

比如代码：

单测通过就是好
编译失败就是坏

比如数学：

答案正确就是好
答案错误就是坏

比如工具调用：

调用成功就是好
参数非法就是坏
越权操作就是严重惩罚

这类任务更适合 RL。

因为它不完全依赖人工主观偏好。

有客观反馈。

# 4. 高风险场景，RLHF/RL 还要配合规则

这里要提醒一下。

RLHF/RL 不是安全保险箱。

尤其是金融、医疗、法律、退款、删除数据、发邮件这类高风险动作。

不能说"我做了 RLHF，模型应该会安全"。

不行。

高风险动作必须配合：

权限控制
二次确认
审批流
幂等机制
回滚机制
操作日志

模型训练只能提高倾向，不能替代系统约束。

这点面试里说出来，面试官会知道你不是只会讲算法名词。

# 七、DPO 为什么现在经常被提到

DPO 现在经常被提到，是因为它工程上更轻。

传统 RLHF 流程比较重：

SFT → 收集偏好数据 → 训练 Reward Model → PPO 优化 → 评测和调参

每一步都有坑。

Reward Model 会不会学偏？

PPO 会不会不稳定？

KL 怎么控制？

训练成本能不能接受？

这些都不简单。

DPO 的思路更直接：

给模型一组偏好对：chosen 比 rejected 好
直接训练模型更偏向 chosen

1
2

所以很多场景会优先考虑 DPO。

尤其是你已经有比较明确的偏好数据，比如：

好客服回答 vs 差客服回答
合规回答 vs 不合规回答
简洁回答 vs 啰嗦回答
正确工具调用轨迹 vs 错误轨迹

DPO 可以比完整 RLHF 更容易落地。

但它也有边界。

如果你的偏好数据质量差，DPO 也救不了。

如果你的任务需要和环境多轮交互，光靠静态偏好对也不够。

所以面试里可以这样说：

DPO 降低了偏好优化的工程门槛，但它仍然依赖高质量偏好数据，也不能替代真实环境反馈。

# 八、什么场景不建议做微调

这部分一定要讲。

因为面试官不只想听你会做什么，也想看你知道什么时候不要做。

# 1. Prompt 能解决的，不要急着训练

如果只是格式、语气、结构稍微调整，Prompt 就能解决。

先别上 SFT。

训练不是免费的。

它会带来数据、成本、版本管理、评测、回滚问题。

# 2. 知识更新频繁的，不要硬塞进模型

产品规则、政策条款、价格、库存、组织架构，这些都容易变。

优先 RAG 或工具查询。

不要把它们都训进模型。

否则模型里会残留旧知识。

# 3. 没有评测集的，不要盲目微调

没有 eval，就不知道提升在哪里。

你只会得到一句话：

"感觉好了一点。"

这不是工程结论。

训练前至少要有：

核心场景测试集
失败案例集
安全边界测试集
格式稳定性测试
线上指标定义

否则微调只是玄学。

# 4. 数据质量差的，不要直接训

数据质量决定微调上限。

如果数据里有大量错误、过时、冲突、隐私信息，先治理数据。

不要急着训练。

脏数据训出来的不是垂类模型，是垂类问题集合。

# 5. 业务变化很快的，不要重仓微调

如果业务流程每周都变，话术每天都改，规则频繁调整。

那你每次都重新微调，成本很高。

这种场景更适合 Prompt、配置、RAG、规则引擎。

等流程稳定了，再考虑训练。

# 九、工程上怎么判断微调有没有收益

面试里，如果你能讲到评估闭环，就比只会背概念强很多。

大模型微调工程闭环图

微调有没有收益，不能靠感觉。

要看指标。

# 1. 任务指标

看核心任务有没有提升。

比如：

分类准确率
信息抽取 F1
工具调用成功率
JSON 合法率
任务完成率
用户问题解决率

这些是任务本身的指标。

# 2. 质量指标

看回答质量有没有提升。

比如：

幻觉率
无证据回答率
格式错误率
拒答准确率
低置信度处理率
人工接管率

尤其是 RAG 和 Agent 场景，不能只看用户是否满意。

还要看证据、工具、输出是否可靠。

# 3. 成本指标

微调还有一个很现实的目标：降本。

比如：

单次调用成本下降多少
延迟降低多少
小模型承接了多少流量
大模型调用量减少多少

如果效果差不多，但成本降了一半，这也是价值。

# 4. 风险指标

高风险业务要看：

越权动作率
错误拒答率
错误放行率
审批触发率
回滚次数
投诉率

微调不能只追求"答得更像人"。

还要看有没有降低风险。

# 5. 回归测试

每次改 Prompt、改 RAG、改工具、改模型，都要跑回归。

否则很容易出现：

这个场景好了，另一个场景坏了。

微调也是一样。

不能只看训练集和少量样例。

要有稳定的回归集。

# 十、面试官可能怎么追问

这篇文章不只是讲一个问题。

围绕大模型微调，面试官可能会连续追问。

下面这些问题，录友可以一起准备。

# 1. SFT 和 RAG 怎么选？

回答重点：

知识用 RAG，行为用 SFT。

如果是外部知识、动态知识、需要引用来源，优先 RAG。

如果是输出格式、任务流程、话术风格、工具调用范式，考虑 SFT。

# 2. SFT 和 Prompt Engineering 怎么选？

回答重点：

先 Prompt，后 SFT。

如果 Prompt 能稳定解决，不训练。

如果 Prompt 很长、很脆、效果不稳定，而且场景高频固定，再考虑 SFT。

# 3. SFT 和 RLHF 有什么区别？

回答重点：

SFT 学示范。

RLHF 学偏好。

SFT 更像"老师给标准答案"。

RLHF 更像"人类告诉模型哪个答案更好"。

# 4. DPO 和 RLHF 有什么区别？

回答重点：

传统 RLHF 通常要训练 Reward Model，再用 PPO 优化。

DPO 直接用偏好对优化模型，流程更简单、更稳定。

但 DPO 依赖高质量偏好数据，不适合所有多步环境反馈任务。

# 5. PPO 是什么？

回答重点：

PPO 是强化学习优化算法，不是标注方法。

在 RLHF 里，它用来根据 reward 优化模型，同时限制模型不要偏离原模型太远，避免训崩。

# 6. 为什么垂类微调容易失败？

回答重点：

常见原因有：

数据质量差
任务边界不清
把动态知识硬塞进模型
没有评测集
只看主观体验
基模升级后收益消失

# 7. Agent 场景里 RL 有什么价值？

回答重点：

Agent 是多步决策，不只是生成文本。

RL 可以优化工具选择、参数填写、检索策略、任务完成率。

但前提是有清晰 reward 和安全边界。

# 8. 微调后怎么上线？

回答重点：

不能直接全量替换。

要灰度发布、A/B 测试、监控指标、保留回滚方案。

同时要对幻觉率、格式错误率、人工接管率、投诉率、成本和延迟做监控。

# 十一、面试怎么答

如果面试官问：

"基模能力越来越强，SFT/RLHF/RL 还有没有必要？破局点是什么？"

你可以这样答：

"我不会把 SFT、RLHF 或 RL 理解成单纯给模型补知识。随着通用基模越来越强，很多低质量垂类微调确实会被抹平，尤其是只靠少量 QA 补通用知识、没有评测闭环的微调，价值会越来越低。

但这不代表微调没有必要。它的价值会从补能力转向控行为、控偏好、控成本和控风险。

比如 SFT 更适合让模型在固定业务场景里稳定按指定格式、指定流程、指定话术输出，而不是把动态业务知识硬塞进模型。知识更新频繁的场景，我会优先用 RAG 或工具查询。

RLHF 或 DPO 更适合解决偏好问题，也就是多个答案都能用，但业务更偏好哪一种。比如客服回答是先安抚还是先解释规则，安全场景里应该拒答到什么程度，这些都不是简单知识问题。

更广义的 RL 则更适合有明确 reward 的任务，比如代码单测、数学答案、Agent 工具调用、多步任务完成率。它的破局点不是让模型更会聊天，而是优化多步决策和任务成功率。

所以我会先判断问题能不能用 Prompt、RAG、规则或工具解决。

如果只是知识问题，优先 RAG；如果是行为稳定性问题，再考虑 SFT；如果是偏好对齐问题，可以考虑 DPO/RLHF；如果有可验证 reward，才考虑更重的 RL。

最后，微调值不值得做，不能靠感觉，要看评测集、线上指标、成本收益和风险控制。如果没有高质量数据、没有 eval、没有上线监控，我不会贸然做微调。"

这个回答的重点不是把每个名词都背一遍。

而是让面试官听出来：

你知道大模型微调是什么，也知道它什么时候该做，什么时候不该做。

这才是面试真正想考的东西。

← GraphRAG与LightRAG大厂面试题汇总 Agent大厂面试题汇总 →

验证登录状态...

# 大模型微调面试怎么答？SFT、RLHF、DPO、PPO 到底还有没有必要？

# 目录

# 一、先说结论：微调没有消失，只是价值变了

# 二、先把名词讲清楚：SFT、RLHF、RL、PPO、DPO 是什么

# 1. SFT：监督微调

# 2. RLHF：基于人类反馈的强化学习

# 3. RL：强化学习

# 4. PPO：一种常见的 RL 优化算法

# 5. DPO：直接偏好优化

# 三、微调、Prompt、RAG 到底怎么选

# 1. 能靠 Prompt 解决，就先别训练

# 2. 知识频繁变化，优先 RAG 或工具

# 3. 行为稳定性不够，再考虑 SFT

# 4. 多个答案都能用，但你有明确偏好，考虑 DPO / RLHF

# 5. 有可验证 reward，才考虑更强的 RL

# 四、为什么很多垂类微调会被基模抹平

# 1. 只补通用知识的微调，容易被抹平

# 2. 只调风格但没有评测，也容易被抹平

# 3. 数据质量低的 SFT，甚至会拖累模型

# 4. 没有业务闭环的 RL，也容易变成样子工程

# 五、SFT 的破局点：从补知识变成控行为

# 1. 固定输出格式

# 2. 固定业务流程

# 3. 行业话术和品牌口径

# 4. 小模型降本

# 六、RLHF / RL 的破局点：从变聪明变成控偏好和控决策

# 1. RLHF 的价值是对齐偏好

# 2. RL 的价值是优化多步决策

# 3. 有明确 reward 的任务，RL 更有价值

# 4. 高风险场景，RLHF/RL 还要配合规则

# 七、DPO 为什么现在经常被提到

# 八、什么场景不建议做微调

# 1. Prompt 能解决的，不要急着训练

# 2. 知识更新频繁的，不要硬塞进模型

# 3. 没有评测集的，不要盲目微调

# 4. 数据质量差的，不要直接训

# 5. 业务变化很快的，不要重仓微调

# 九、工程上怎么判断微调有没有收益

# 1. 任务指标

# 2. 质量指标

# 3. 成本指标

# 4. 风险指标

# 5. 回归测试

# 十、面试官可能怎么追问

# 1. SFT 和 RAG 怎么选？

# 2. SFT 和 Prompt Engineering 怎么选？

# 3. SFT 和 RLHF 有什么区别？

# 4. DPO 和 RLHF 有什么区别？

# 5. PPO 是什么？

# 6. 为什么垂类微调容易失败？

# 7. Agent 场景里 RL 有什么价值？

# 8. 微调后怎么上线？

# 十一、面试怎么答

评论