🎮 Reinforcement Learning - smyrna · Scour

Deep reinforcement learning for process design: Review and perspective

🔢TensorFlow Academic

COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection

🤖Machine Learning Academic

A Unifying Lens on Reward Uncertainty in RLHF

🤖AI Academic

Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

🤖AI Academic

Exact Unlearning in Reinforcement Learning

🤖AI Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🔢TensorFlow Academic

Progress-SQL: Improving Reinforcement Learning for Text-to-SQL via Progressive Rewards

🔢TensorFlow Academic

Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models

🤖Transformers Academic

QnRL: Quantum-Native Reinforcement Learning

📷Photography Academic

Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment

🤖AI Academic

Performance Variation in Deep Reinforcement Learning

🔢TensorFlow Academic

Drag reduction or reward hacking? Recurrent multi-agent reinforcement learning that earns its reward

🤖Transformers Academic

EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms

🤖AI Academic

Explainably Safe Reinforcement Learning

🔢TensorFlow Academic

GARL: Game-Theoretic Reinforcement Learning for Multi-Agent Strategic Prioritisation

🔗Markov Chains Academic

Self-Optimizing Control of Continuous Processes Based on Reinforcement Learning

🤖Machine Learning Academic

Enhancing the MADDPG Algorithm for Multi-Agent Learning via Action Inference and Importance Sampling

🔢TensorFlow Academic

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

🤖AI Academic

RUBAS: Rubric-Based Reinforcement Learning for Agent Safety

🤖AI Academic

Reinforcement Learning from Rich Feedback with Distributional DAgger

🔢TensorFlow Academic

Log in to enable infinite scrolling