🎯 Reinforcement Learning - jobz · Scour

Reasoning RL in 2026: GRPO, DPO, RLVR, Agentic PO & Beyond

🧠Reasoning Models

turingpost.com·

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

🌐World Models Academic

How to Implement a Model-Free RL Algorithm: A Step-by-Step Guide

🌐World Models Blog

ujangriswanto08.medium.com·

Researchers develop AI-powered railway control system for efficient urban train operation

⚖️AI Governance

techxplore.com·

Q-Learning (Reinforcement learning): Bellman Equation, Markov Decision Processes, Q-Values, and…

💾Agent Memory Blog

·

Reinforcement Learning and Optimal Control Book (RIP Dimitri Bertsekas)

🌐World Models Academic

web.mit.edu··Hacker News

Deterministic Policy Gradient for Learning Equilibrium in Time-Inconsistent Control Problems

🌐World Models Academic

Variational Proximal Policy Optimization

🔬AI Research Academic

Reinforcement Learning Disrupts Gradient-Based Adversarial Optimization

🌐World Models Academic

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

💾Agent Memory Academic

APPO: Agentic Procedural Policy Optimization

💻AI Coding Academic

Performance Variation in Deep Reinforcement Learning

⚡Inference Academic

A Unifying Lens on Reward Uncertainty in RLHF

🧠LLMs Academic

PAWS: Preference Learning with Advantage-Weighted Segments

🧠Reasoning Models Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

⚡Inference Academic

Plan-and-Verify Video Reward Reasoning with Spatio-Temporal Scene Graph Grounding

🧠Reasoning Models Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🤖AI Agents Academic

3SPO: State-Score-Supervised Policy Optimization for LLM Agents

🤖AI Agents Academic

Space-sampled Value Decay: Forgetting Mechanisms for Non-stationary Deep Reinforcement Learning

💾Agent Memory Academic

Rethinking the Divergence Regularization in LLM RL

🧠LLMs Academic

Log in to enable infinite scrolling