🎮 Reinforcement Learning - laurynas · Scour

Policy Gradient Methods for Non-Markovian Reinforcement Learning ⚙Context engineering

rl for red teaming: training models to attack and defend themselves ⚙Context engineering

castform.com·1d·Hacker News

'Try, Score, Change': Reinforcement Learning for Children ⚙Context engineering

gwern.net·5d·Hacker News

Learning, Fast and Slow: LLMs That Adapt Continually ⚙Context engineering

gepa-ai.github.io·5d·Hacker News

Meta's Hyperagents and Self-Correcting Agents ⚙Context engineering

jdsemrau.substack.com·4d·Substack

SFT, RL, and On-Policy Distillation Through a Distributional Lens (19 minute read) 🧪Property-based Testing

nrehiew.github.io·5d·Hacker News

Q-Flow: Stable and Expressive Reinforcement Learning with Flow-Based Policy ⚙Context engineering

Self-Distilled Agentic Reinforcement Learning ⚙Context engineering

Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization ⚙Context engineering

Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance ⚙Context engineering

Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective ⚙Context engineering

Self-Supervised On-Policy Reinforcement Learning via Contrastive Proximal Policy Optimisation ⚙Context engineering

GAGPO: Generalized Advantage Grouped Policy Optimization ⚙Context engineering

Skill-R1: Agent Skill Evolution via Reinforcement Learning ⚙Context engineering

Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards ⚙Context engineering

ODRPO: Ordinal Decompositions of Discrete Rewards for Robust Policy Optimization 🎯Reranking

Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States ⚙Context engineering

Resolving Action Bottleneck: Agentic Reinforcement Learning Informed by Token-Level Energy ⚙Context engineering

Reinforcement Learning Measurement Model ⚙Context engineering

ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation 🤝Multi-Agent Systems

Log in to enable infinite scrolling