🎮 Reinforcement Learning - jhcha.oyo · Scour

An Agency-Transferring Model-Free Policy Enhancement Technique

🤖AI Academic

Self-Distilled Policy Gradient

🎯RLHF Academic

Cooperative Long Rope Skipping via Multi-Agent Reinforcement Learning

🎯RLHF Academic

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

🎯RLHF Academic

GARL: Game-Theoretic Reinforcement Learning for Multi-Agent Strategic Prioritisation

🎯AI Agents Academic

Q-VGM: Q-Guided Value-Gradient Matching for Flow-Matching VLA Policies

🤖AI Academic

On Advantage Estimates for Max@K Policy Gradients

🎯RLHF Academic

Performance Variation in Deep Reinforcement Learning

🎯RLHF Academic

Claw-R1: A Step-Level Data Middleware System for Agentic Reinforcement Learning

🎯RLHF Academic

Enhancing the MADDPG Algorithm for Multi-Agent Learning via Action Inference and Importance Sampling

📈Time Series Analysis Academic

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

🎯AI Agents Academic

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents

⚛️Physics Academic

RUBAS: Rubric-Based Reinforcement Learning for Agent Safety

🔐Cryptography Academic

Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment

📈Optimization Academic

Agentic Monte Carlo: Simulating Reinforcement Learning for Black-Box Agents

🎲Probability Academic

Alpha-RTL: Test-Time Training for RTL Hardware Optimization

🎛️Fine-tuning Academic

Reinforcement Learning from Rich Feedback with Distributional DAgger

🎯RLHF Academic

COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection

🎯RLHF Academic

OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation

🎯RLHF Academic

Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models

🎛️Fine-tuning Academic

Log in to enable infinite scrolling