🎮 Reinforcement Learning - recaip · Scour

Deep reinforcement learning for process design: Review and perspective

🤖Machine Learning Academic

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

💬LLM Academic

SocraticPO: Policy Optimization via Interactive Guidance

🤖AI Academic

Cooperative Long Rope Skipping via Multi-Agent Reinforcement Learning

🤖AI Academic

Failure Modes of Deep Multi-Agent RL in Asynchronous Pricing: Reproducible Triggers, Trace Diagnostics, and a Partial Fix

💬LLM Academic

Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

🤖AI Academic

Mult-DPO: Multinomial Direct Preference Optimization for Recommender Systems

💬LLM Academic

Self-evolving LLM agents with in-distribution Optimization

💬LLM Academic

MODIP: Efficient Model-Based Optimization for Diffusion Policies

🤖Machine Learning Academic

An Agency-Transferring Model-Free Policy Enhancement Technique

🤖Machine Learning Academic

Policy Gradient for Continuous-Time Robust Markov Decision Processes

💬LLM Academic

Mitigating Bias in Low-SNR Financial Reinforcement Learning via Quantum Representations

🤖Machine Learning Academic

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

💬LLM Academic

Enhancing the MADDPG Algorithm for Multi-Agent Learning via Action Inference and Importance Sampling

💬LLM Academic

Self-Evolving Scientific Agent Discovers Generalizable Physically-Reasoned Fluid Control

🤖AI Academic

SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

🤖AI Academic

Learning Predictive Control with Deep Koopman Operators for Autonomous Vehicle Motion Planning

🤖AI Academic

TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

🤖AI Academic

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

🤖AI Academic

Variational Proximal Policy Optimization

🤖Machine Learning Academic

Sign up or log in to see more results

Log in to enable infinite scrolling