🤖 Reinforcement Learning - blurp · Scour

SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents

📞Function Calling Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

🖼Stable Diffusion Academic

Variational Proximal Policy Optimization

🖼Stable Diffusion Academic

Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning

🕵️AI Agents Academic

Claw-R1: A Step-Level Data Middleware System for Agentic Reinforcement Learning

🧠Context Engineering Academic

Multi-agent rendezvous in fluid flows via reinforcement learning

🎭ai agent orchestration Academic

Space-sampled Value Decay: Forgetting Mechanisms for Non-stationary Deep Reinforcement Learning

🧠Context Engineering Academic

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

🎨AI Image Gen Academic

Reinforcement Learning for Neural Model Editing

🖼Stable Diffusion Academic

UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning

🖼Stable Diffusion Academic

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

🧠Context Engineering Academic

Multi-Agent Reinforcement Learning from Delayed Marketplace Feedback for Objective-Weight Adaptation in Three-Sided Dispatch

🧠Context Engineering Academic

arxiv.org··Cited by 1 article

HARBOR: A Harness Framework for Agentic Robot Reinforcement Learning

🤖Agentic AI Academic

GIFT: LLM-Guided State-Reward Interface for Financial Reinforcement Learning

🧠Context Engineering Academic

3SPO: State-Score-Supervised Policy Optimization for LLM Agents

🤖Agentic AI Academic

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

🧠Context Engineering Academic

arxiv.org··Cited by 1 article

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

🧠Context Engineering Academic

Geometry-Aware Reinforcement Learning for 2D Irregular Nesting

📦Algorithmic Layout Academic

Rethinking the Divergence Regularization in LLM RL

🤖Machine learning Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

🎨AI Image Gen Academic

Log in to enable infinite scrolling