🎮 Reinforcement Learning - vabsw · Scour

Enhancing the MADDPG Algorithm for Multi-Agent Learning via Action Inference and Importance Sampling

🤖LLMs Academic

A Regret Minimization Framework on Preference Learning in Large Language Models

🤖LLMs Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🤖LLMs Academic

3SPO: State-Score-Supervised Policy Optimization for LLM Agents

🤖LLMs Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

👁️Computer Vision Academic

Sequential Data Poisoning in LLM Post-Training

🤖LLMs Academic

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

🤖AI Academic

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

🛡️AI Safety Academic

Retry Policy Gradients in Continuous Action Spaces

🤖AI Academic

Mechanistic Analysis of Alignment Algorithms in Language Models

🤖LLMs Academic

OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation

🤖AI Academic

Distilling LLM Reasoning into an Interpretable Policy Tree for Human-AI Collaboration

🛡️AI Safety Academic

Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning

🤖AI Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

🛡️AI Safety Academic

DOG-DPO:Dynamic Optimization in Geometry for Safety Alignment

🛡️AI Safety Academic

Self-evolving LLM agents with in-distribution Optimization

🤖LLMs Academic

Cooperative Long Rope Skipping via Multi-Agent Reinforcement Learning

🤖AI Academic

Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment

🛡️AI Safety Academic

Principled Agent Debate: Adversarial Arbitration for Sycophancy Reduction in Large Language Models

🤖LLMs Academic

Development of COVID-19 Booster Vaccine Policy by Microsimulation and Q-learning

🩺Health Academic

Sign up or log in to see more results

Log in to enable infinite scrolling