🎮 Reinforcement Learning - jcbush · Scour

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

🤖Machine learning Academic

QnRL: Quantum-Native Reinforcement Learning

📊Optimization Academic

Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning

📊Optimization Academic

On-sky demonstration of reinforcement learning for adaptive optics control

📊Optimization Academic

Variational Proximal Policy Optimization

📊Optimization Academic

Dmsh: A Multi-Agent Reinforcement Learning Framework for All-Quad Mesh Generation

📊Optimization Academic

Locomotion analysis of a quadruped interacting with the lunar granular surface

📊Optimization Academic

Performance Variation in Deep Reinforcement Learning

📊Optimization Academic

ARTA: Adaptive Reinforcement-Learning-Based Throttling Agent for RowHammer Vulnerabilities

📊Optimization Academic

Belief-Space Quantum-Inspired Reinforcement Learning for Partially Observable Autonomous Cyber Defense in the Internet of Vehicles

🎲Bayesian statistics Academic

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

📊Optimization Academic

UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning

📊Optimization Academic

Uncertainty-Aware Motion Planning for Autonomous Driving in Mixed Traffic Environment

📊Optimization Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

📊Optimization Academic

MARCH: Model-Assisted Reinforcement Learning for the Perceptive Control of Humanoids over Sparse Footholds

📊Optimization Academic

Deep reinforcement learning for process design: Review and perspective

📊Optimization Academic

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

📊Optimization Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

📊Optimization Academic

TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

📊Optimization Academic

Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

📊Optimization Academic

Sign up or log in to see more results

Log in to enable infinite scrolling