🎮 Reinforcement Learning - jhcha.oyo · Scour

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

🎯RLHF Academic

Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

🤖Game AI Academic

Self-Distilled Policy Gradient

🎯RLHF Academic

3SPO: State-Score-Supervised Policy Optimization for LLM Agents

🎯AI Agents Academic

An Agency-Transferring Model-Free Policy Enhancement Technique

🤖AI Academic

TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

🎯RLHF Academic

Cooperative Long Rope Skipping via Multi-Agent Reinforcement Learning

🎯RLHF Academic

GARL: Game-Theoretic Reinforcement Learning for Multi-Agent Strategic Prioritisation

🎯AI Agents Academic

Geometry-Aware Reinforcement Learning for 2D Irregular Nesting

👁️Computer Vision Academic

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

🎯RLHF Academic

On Advantage Estimates for Max@K Policy Gradients

🎯RLHF Academic

Q-VGM: Q-Guided Value-Gradient Matching for Flow-Matching VLA Policies

🤖AI Academic

Enhancing the MADDPG Algorithm for Multi-Agent Learning via Action Inference and Importance Sampling

📈Time Series Analysis Academic

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

🎯AI Agents Academic

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents

⚛️Physics Academic

RUBAS: Rubric-Based Reinforcement Learning for Agent Safety

🔐Cryptography Academic

Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment

📈Optimization Academic

Agentic Monte Carlo: Simulating Reinforcement Learning for Black-Box Agents

🎲Probability Academic

Alpha-RTL: Test-Time Training for RTL Hardware Optimization

🎛️Fine-tuning Academic

Reinforcement Learning from Rich Feedback with Distributional DAgger

🎯RLHF Academic

Log in to enable infinite scrolling