🎯 Reinforcement Learning - justjcullen · Scour

Reinforcement Learning Disrupts Gradient-Based Adversarial Optimization

🤖Machine Learning Academic

Stubborn: A Streamlined and Unified Reinforcement Learning Framework for Robust Motion Tracking and Fall Recovery for Humanoids

⚡Incremental Computation Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

⚡Incremental Computation Academic

Improving Generalization and Data Efficiency with Diffusion in Offline Multi-agent RL

🌍Distributed Systems Academic

Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning

🤖Machine Learning Academic

UniIntervene: Agentic Intervention for Efficient Real-World Reinforcement Learning

⚡Incremental Computation Academic

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

🔍AI Interpretability Academic

KinematicRL: A Sim-to-Real Reinforcement Learning Framework For Social Navigation With Kinodynamic Feasibility

⚡Incremental Computation Academic

Demystifying Hidden-State Recurrence: Switchable Latent Reasoning with On-Policy Reinforcement Learning

λFunctional Programming Academic

arxiv.org··Hacker News

Performance Variation in Deep Reinforcement Learning

🤖Machine Learning Academic

Keep Policy Gradient in Charge: Sibling-Guided Credit Distillation for Long-Horizon Tool-Use Agents

⚡Incremental Computation Academic

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

🔍AI Interpretability Academic

arxiv.org··Cited by 1 article

Phi-Actor-Critic: Steering General-Sum Games to Pareto-Efficient Correlated Equilibria

⚡Incremental Computation Academic

Learning to Adapt: Representation-Based Reinforcement Learning for Multi-Task Skill Transfer

⚡Incremental Computation Academic

Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning

🔍AI Interpretability Academic

Redesigning Regularization for Effective Policy Smoothing

🔍AI Interpretability Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

🤖Machine Learning Academic

Critic Architecture Matters: Dual vs. Unified Critics for Humanoid Loco-Manipulation

⚡Incremental Computation Academic

PAWS: Preference Learning with Advantage-Weighted Segments

🔍AI Interpretability Academic

Event-Driven Reinforcement Learning Enables Long-Horizon Control in Semiconductor Fabrication

🌀Complexity Science Academic

Log in to enable infinite scrolling