🎮 Reinforcement Learning - Bingran · Scour

Verifiable Environments Are LEGO Bricks: Recursive Composition for Reasoning Generalization

📐Scaling Laws Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

📐Scaling Laws Academic

Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning

⚙️Model Training Academic

Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning

🔍Interpretability Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🔄Transformers Academic

Variational Proximal Policy Optimization

📉Deep Learning Academic

IAPO: Input Attribution-Aware Policy Optimization for Tool Use in Small Multimodal Agents

🤖AI Agents Academic

Representation Learning Enables Scalable Multitask Deep Reinforcement Learning

📉Deep Learning Academic

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

📐Scaling Laws Academic

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

⚙️Model Training Academic

Multi-agent rendezvous in fluid flows via reinforcement learning

🤖AI Agents Academic

On Advantage Estimates for Max@K Policy Gradients

📐Scaling Laws Academic

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

⚙️Model Training Academic

Improving Generalization and Data Efficiency with Diffusion in Offline Multi-agent RL

🤖AI Agents Academic

UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning

🧠AI Research Academic

Retry Policy Gradients in Continuous Action Spaces

📉Deep Learning Academic

DriveReward: A Comprehensive Dataset and Generative Vision-Language Reward Model for Autonomous Driving

🖥️ML Systems Academic

SVoT: State-aware Visualization-of-Thought for Spatial Reasoning via Reinforcement Learning

🔄Transformers Academic

Rethinking the Divergence Regularization in LLM RL

💬LLMs Academic

Transformer-Enhanced Reinforcement Learning: Fundamentals and Applications in Communication Networks

🔄Transformers Academic

Sign up or log in to see more results

Log in to enable infinite scrolling