2026 年 RL 方向面经合集 (opens in new tab)
sheriyuo,Machine Learning 由于见到了拿到 PhD offer 但直接春招上岸大包的例子,本人也在想是否不登校了早点套现。于是这个合集蒸馏了知乎上所有和 RL 相关的面经,加上本人的一些最新讨论见解,整理出了最有深度的 35 道题作为合集,也算是造了个 benchmark 注意: 这里的问题没有严格区分 LLM RL 和 Agentic RL,但是一部分问题下 Agent 场景会有不同 几乎所有问题可延伸 / 追问的空间都相当大,此处不提供参考答案,使用 LLM 请反复交互并打开联网搜索 现在的 RL 招人需求就是尽可能全栈,不存在你做算法就不问 Infra 的情况,相反也如此 这里没有收集 Data 相关的题目,因为几乎没法背,全靠你的相关经历 切记背八股 / 面经不一定有用,打铁还需自身硬 算法部分 为什么要用 Actor-Critic 而不是纯 Critic? KL 散度和交叉熵、MLE 的关系? 不同 RL 场景应该如何设计 Reward? 如何理解 RL 中的 importance sampling / rejection sampling 等 ...
Read the original article