🎯 Reinforcement Learning - jobz · Scour

Reasoning RL in 2026: GRPO, DPO, RLVR, Agentic PO & Beyond

🧠Reasoning Models

turingpost.com·

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

🌐World Models Academic

How to Implement a Model-Free RL Algorithm: A Step-by-Step Guide

🌐World Models Blog

ujangriswanto08.medium.com·

Researchers develop AI-powered railway control system for efficient urban train operation

⚖️AI Governance

techxplore.com·

Q-Learning (Reinforcement learning): Bellman Equation, Markov Decision Processes, Q-Values, and…

💾Agent Memory Blog

·

Reinforcement Learning and Optimal Control Book (RIP Dimitri Bertsekas)

🌐World Models Academic

web.mit.edu··Hacker News

Plan-and-Verify Video Reward Reasoning with Spatio-Temporal Scene Graph Grounding

🧠Reasoning Models Academic

Variational Proximal Policy Optimization

🔬AI Research Academic

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

💾Agent Memory Academic

Performance Variation in Deep Reinforcement Learning

⚡Inference Academic

A Unifying Lens on Reward Uncertainty in RLHF

🧠LLMs Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

⚡Inference Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🤖AI Agents Academic

3SPO: State-Score-Supervised Policy Optimization for LLM Agents

🤖AI Agents Academic

Rethinking the Divergence Regularization in LLM RL

🧠LLMs Academic

On Advantage Estimates for Max@K Policy Gradients

⚡Inference Academic

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

🧠LLMs Academic

UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning

⚡Inference Academic

Representation Learning Enables Scalable Multitask Deep Reinforcement Learning

🌐World Models Academic

DriveReward: A Comprehensive Dataset and Generative Vision-Language Reward Model for Autonomous Driving

👁️Multimodal AI Academic

Log in to enable infinite scrolling