2026 年 RL 方向面经合集 (opens in new tab)

sheriyuo，Machine Learning 由于见到了拿到 PhD offer 但直接春招上岸大包的例子，本人也在想是否不登校了早点套现。于是这个合集蒸馏了知乎上所有和 RL 相关的面经，加上本人的一些最新讨论见解，整理出了最有深度的 35 道题作为合集，也算是造了个 benchmark 注意：这里的问题没有严格区分 LLM RL 和 Agentic RL，但是一部分问题下 Agent 场景会有不同几乎所有问题可延伸 / 追问的空间都相当大，此处不提供参考答案，使用 LLM 请反复交互并打开联网搜索现在的 RL 招人需求就是尽可能全栈，不存在你做算法就不问 Infra 的情况，相反也如此这里没有收集 Data 相关的题目，因为几乎没法背，全靠你的相关经历切记背八股 / 面经不一定有用，打铁还需自身硬算法部分为什么要用 Actor-Critic 而不是纯 Critic？ KL 散度和交叉熵、MLE 的关系？不同 RL 场景应该如何设计 Reward？如何理解 RL 中的 importance sampling / rejection sampling 等 ...

Read the original article