🎮 Reinforcement Learning - laurynas · Scour

Policy Gradient Methods for Non-Markovian Reinforcement Learning ⚙Context engineering

Reinforcement Learning: An Introduction (2nd Edition) 🔍AI Interpretability

chizkidd.github.io·13h

rl for red teaming: training models to attack and defend themselves ⚙Context engineering

castform.com·1d·Hacker News

Reinforcement Learning, Agency and Taste ⚙Context engineering

lesswrong.com·3d

'Try, Score, Change': Reinforcement Learning for Children ⚙Context engineering

gwern.net·6d·Hacker News

What is the difference between supervised, unsupervised, and reinforcement learning? ⚙Context engineering

·4d

Button-pushing explorers: How to grasp that AI agents can do amazing things while knowing nothing 🔍AI Interpretability

theconversation.com·3d

Learning, Fast and Slow: LLMs That Adapt Continually ⚙Context engineering

gepa-ai.github.io·5d·Hacker News

Q-Flow: Stable and Expressive Reinforcement Learning with Flow-Based Policy ⚙Context engineering

Reinforcement Learning for Optimal Execution 🤖agents

jonathankinlay.com·5d

Meta's Hyperagents and Self-Correcting Agents ⚙Context engineering

jdsemrau.substack.com·4d·Substack

Self-Distilled Agentic Reinforcement Learning ⚙Context engineering

Multi-Objective and Mixed-Reward Reinforcement Learning via Reward-Decorrelated Policy Optimization ⚙Context engineering

Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients 🤝Multi-Agent Systems

Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance ⚙Context engineering

3D RL-DWA: A Hybrid Reinforcement Learning and Dynamic Window Approach for Goal-Directed Local Navigation in Multi-DoF Robots 🤝Multi-Agent Systems

Synthesizing POMDP Policies: Sampling Meets Model-checking via Learning ⚙Context engineering

Revisiting Reinforcement Learning with Verifiable Rewards from a Contrastive Perspective ⚙Context engineering

ROAD: Adaptive Data Mixing for Offline-to-Online Reinforcement Learning via Bi-Level Optimization ⚙Context engineering

Learning When to Act: Communication-Efficient Reinforcement Learning via Run-Time Assurance 🧪Property-based Testing

Log in to enable infinite scrolling