🤖 Reinforcement Learning - a1k0n · Scour

Reinforcement Learning for Flow-Matching Policies with Density Transport

🤖Machine Learning Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🤖Transformers Academic

Event-Driven Reinforcement Learning Enables Long-Horizon Control in Semiconductor Fabrication

👁️Attention Mechanisms Academic

Cooperative Long Rope Skipping via Multi-Agent Reinforcement Learning

🤖AI Academic

MDP-GRPO: Stabilized Group Relative Policy Optimization for Multi-Constraint Instruction Following

⚙️Systems Programming Academic

Self-Evolving Scientific Agent Discovers Generalizable Physically-Reasoned Fluid Control

📚Compilers Academic

Policy-Conditioned Counterfactual Credit for Verifiable Reinforcement Learning of Long-Horizon Language Agents

🤖AI Academic

3SPO: State-Score-Supervised Policy Optimization for LLM Agents

🤖AI Academic

An Agency-Transferring Model-Free Policy Enhancement Technique

🤖Machine Learning Academic

Learning to replenish: A hybrid deep reinforcement learning for dynamic inventory management in the pharmaceutical supply chains

🤖Machine Learning Academic

Geometry-Aware Reinforcement Learning for 2D Irregular Nesting

⚡SIMD Optimization Academic

Distilling LLM Reasoning into an Interpretable Policy Tree for Human-AI Collaboration

🤖Transformers Academic

Alpha-RTL: Test-Time Training for RTL Hardware Optimization

⚙️JIT Compilation Academic

GIFT: LLM-Guided State-Reward Interface for Financial Reinforcement Learning

🤖AI Academic

GenPO++: Generative Policy Optimization with Jacobian-free Likelihood Ratios

🤖AI Academic

Failure Modes of Deep Multi-Agent RL in Asynchronous Pricing: Reproducible Triggers, Trace Diagnostics, and a Partial Fix

🤖AI Academic

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

🤖Transformers Academic

Learning Predictive Control with Deep Koopman Operators for Autonomous Vehicle Motion Planning

🤖Robotics Academic

Learning Multi-Agent Communication Protocol: Study on Information Entropy Efficiency in MARL

🤖AI Academic

Claw-R1: A Step-Level Data Middleware System for Agentic Reinforcement Learning

🤖AI Academic

Sign up or log in to see more results

Log in to enable infinite scrolling