🎮 Reinforcement Learning - yfff · Scour

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

🤖Robotics Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

📐Optimization Theory Academic

Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment

🕵️LLM Agents Academic

SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

🤖Robotics Academic

From Ticks to Flows: Dynamics of Neural Reinforcement Learning in Continuous Environments

🎲Stochastic Processes Academic

TT-DAC-PS: Twin-Target Deterministic Actor-Critic with Policy Smoothing for Optimal Trade Execution

🤖AI Academic

Dmsh: A Multi-Agent Reinforcement Learning Framework for All-Quad Mesh Generation

📐Semidefinite Programming Academic

RUBAS: Rubric-Based Reinforcement Learning for Agent Safety

🕵️LLM Agents Academic

Cooperative Long Rope Skipping via Multi-Agent Reinforcement Learning

🤖Robotics Academic

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

🧠LLM Academic

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

🤖AI Academic

QnRL: Quantum-Native Reinforcement Learning

📐Optimization Theory Academic

Self-evolving LLM agents with in-distribution Optimization

🕵️LLM Agents Academic

An Agency-Transferring Model-Free Policy Enhancement Technique

📐Semidefinite Programming Academic

Geometry-Aware Reinforcement Learning for 2D Irregular Nesting

🕵️LLM Agents Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🧠Machine Learning Academic

3SPO: State-Score-Supervised Policy Optimization for LLM Agents

🕵️LLM Agents Academic

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

🤖AI Academic

AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning

🕵️LLM Agents Academic

Claw-R1: A Step-Level Data Middleware System for Agentic Reinforcement Learning

💡AI Reasoning Academic

Log in to enable infinite scrolling