🎮 Reinforcement Learning - jhcha.oyo · Scour

Policy Gradient for Continuous-Time Robust Markov Decision Processes

🎯RLHF Academic

Q-Learning (Reinforcement learning): Bellman Equation, Markov Decision Processes, Q-Values, and…

🎯RLHF Blog

·

Reasoning RL in 2026: GRPO, DPO, RLVR, Agentic PO & Beyond

turingpost.com·

Reinforcement Learning and Optimal Control Book (RIP Dimitri Bertsekas)

🤖AI Academic

web.mit.edu··Hacker News

Good teachers don’t cheat

🎛️Fine-tuning Blog

jasonkena.github.io··Hacker News

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

🎯RLHF Academic

GIFT: LLM-Guided State-Reward Interface for Financial Reinforcement Learning

🎯RLHF Academic

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

🎯RLHF Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

💬LLMs Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

🎛️Fine-tuning Academic

Development of COVID-19 Booster Vaccine Policy by Microsimulation and Q-learning

🤖AI Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

🤖AI Academic

SocraticPO: Policy Optimization via Interactive Guidance

🎯RLHF Academic

Progress-SQL: Improving Reinforcement Learning for Text-to-SQL via Progressive Rewards

🎯RLHF Academic

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

🎯RLHF Academic

Self-evolving LLM agents with in-distribution Optimization

🎯RLHF Academic

Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning

🤖AI Academic

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

🎯RLHF Academic

Drag reduction or reward hacking? Recurrent multi-agent reinforcement learning that earns its reward

🎯RLHF Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

🎯RLHF Academic

Log in to enable infinite scrolling