🎮 Reinforcement Learning - hussoster · Scour

On Advantage Estimates for Max@K Policy Gradients

🤖AI Academic

Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning

🤖Transformer Architecture Academic

Development of COVID-19 Booster Vaccine Policy by Microsimulation and Q-learning

🧠Neural Network Architectures Academic

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

🔄LSTM Networks Academic

Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models

🔮ML Academic

Event-Driven Reinforcement Learning Enables Long-Horizon Control in Semiconductor Fabrication

🔄LSTM Networks Academic

PAWS: Preference Learning with Advantage-Weighted Segments

🤖Transformer Architecture Academic

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

📈Time Series Forecasting Academic

Improving Generalization and Data Efficiency with Diffusion in Offline Multi-agent RL

🎲Synthetic Data Generation Academic

MDP-GRPO: Stabilized Group Relative Policy Optimization for Multi-Constraint Instruction Following

🤖Transformer Architecture Academic

Bellman-Taylor Score Decoding for Markov Decision Processes with State-Dependent Feasible Action Sets

🔄LSTM Networks Academic

Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

🧠Neural Network Architectures Academic

World Model Self-Distillation: Training World Models to Solve General Tasks

🎲Synthetic Data Generation Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🤖Transformer Architecture Academic

Self-Paced Curriculum Reinforcement Learning for Autonomous Superbike Racing in Simulation

🤖Transformer Architecture Academic

APPO: Agentic Procedural Policy Optimization

🤖AI Academic

Drag reduction or reward hacking? Recurrent multi-agent reinforcement learning that earns its reward

🔄LSTM Networks Academic

QnRL: Quantum-Native Reinforcement Learning

🔮ML Academic

IAPO: Input Attribution-Aware Policy Optimization for Tool Use in Small Multimodal Agents

🤖Transformer Architecture Academic

Belief-Space Quantum-Inspired Reinforcement Learning for Partially Observable Autonomous Cyber Defense in the Internet of Vehicles

🚀Model Deployment Academic

Sign up or log in to see more results

Log in to enable infinite scrolling