daily.zhihu.com

2026 年 RL 方向面经合集 (opens in new tab)

sheriyuo,Machine Learning 由于见到了拿到 PhD offer 但直接春招上岸大包的例子,本人也在想是否不登校了早点套现。于是这个合集蒸馏了知乎上所有和 RL 相关的面经,加上本人的一些最新讨论见解,整理出了最有深度的 35 道题作为合集,也算是造了个 benchmark 注意: 这里的问题没有严格区分 LLM RL 和 Agentic RL,但是一部分问题下 Agent 场景会有不同 几乎所有问题可延伸 / 追问的空间都相当大,此处不提供参考答案,使用 LLM 请反复交互并打开联网搜索 现在的 RL 招人需求就是尽可能全栈,不存在你做算法就不问 Infra 的情况,相反也如此 这里没有收集 Data 相关的题目,因为几乎没法背,全靠你的相关经历 切记背八股 / 面经不一定有用,打铁还需自身硬 算法部分 为什么要用 Actor-Critic 而不是纯 Critic? KL 散度和交叉熵、MLE 的关系? 不同 RL 场景应该如何设计 Reward? 如何理解 RL 中的 importance sampling / rejection sampling 等 ...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help