🎯 Reinforcement Learning - jobz · Scour

Learning to replenish: A hybrid deep reinforcement learning for dynamic inventory management in the pharmaceutical supply chains

💾Agent Memory Academic

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

🧠LLMs Academic

Momentum for Reasoning: Dense Intrinsic Signals in Policy Optimization

🧠Reasoning Models Academic

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

🤖AI Agents Academic

A Regret Minimization Framework on Preference Learning in Large Language Models

🧠LLMs Academic

PRPO: Perception-Reinforced Policy Optimization via Token-Level Dynamic Advantage Reshaping

👁️Multimodal AI Academic

Drag reduction or reward hacking? Recurrent multi-agent reinforcement learning that earns its reward

🤖AI Agents Academic

CATPO: Critique-Augmented Tree Policy Optimization

🧠Reasoning Models Academic

DynaCF: Mitigating Shortcut Learning in Reward Models via Dynamic Counterfactual Sensitivity

💾Agent Memory Academic

TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization

✍️Prompt Engineering Academic

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

💻AI Coding Academic

Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning

🌐World Models Academic

Online KL-Regularized Reinforcement Learning with Function Approximation under Misspecification

🌐World Models Academic

Belief-Space Quantum-Inspired Reinforcement Learning for Partially Observable Autonomous Cyber Defense in the Internet of Vehicles

💾Agent Memory Academic

SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

👁️Multimodal AI Academic

GenPO++: Generative Policy Optimization with Jacobian-free Likelihood Ratios

🌐World Models Academic

Development of COVID-19 Booster Vaccine Policy by Microsimulation and Q-learning

💎Token Economics Academic

Teaching the Way, Not the Answer: Privileged Tutoring Distillation for Multimodal Policy Optimization

👁️Multimodal AI Academic

On-sky demonstration of reinforcement learning for adaptive optics control

🎛️Fine-tuning Academic

The Hidden Bias of Process Reward Models:PRISM for Rewarding the Right Reasoning

🧠Reasoning Models Academic

Sign up or log in to see more results

Log in to enable infinite scrolling