🎮 Reinforcement Learning - codenm.no2 · Scour

Policy Gradient for Continuous-Time Robust Markov Decision Processes

🤖LLM Inference Academic

Can Reinforcement Learning Help LLMs Discover New Reasoning Strategies?

pub.towardsai.net

·

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

🤖Game AI Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

🤖LLM Inference Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

🤝Human-AI Collaboration Academic

Self-Distilled Policy Gradient

📡Information Theory Academic

Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning

🧠LLM Academic

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

🤝Human-AI Collaboration Academic

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

🤖Game AI Academic

HARBOR: A Harness Framework for Agentic Robot Reinforcement Learning

🎯AI Agents Academic

Self-Optimizing Control of Continuous Processes Based on Reinforcement Learning

🤖Agentic AI Academic

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

🛡️AI Safety Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🧠LLM Academic

Dmsh: A Multi-Agent Reinforcement Learning Framework for All-Quad Mesh Generation

🔢Numerical Methods Academic

On Advantage Estimates for Max@K Policy Gradients

🧠LLM Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

🤖Game AI Academic

When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff

🧠LLM Academic

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

🤖Game AI Academic

SocraticPO: Policy Optimization via Interactive Guidance

🧠LLM Academic

RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training

🧠LLM Academic

Log in to enable infinite scrolling