🎮 Reinforcement Learning - jhcha.oyo · Scour

The Fundamental Choice in Reinforcement Learning: On‑Policy vs. Off‑Policy

towardsdatascience.com·

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

🎯RLHF Academic

Reinforcement Learning and Optimal Control Book (RIP Dimitri Bertsekas)

🤖AI Academic

web.mit.edu··Hacker News

Good teachers don’t cheat

🎛️Fine-tuning Blog

jasonkena.github.io··Hacker News

GIFT: LLM-Guided State-Reward Interface for Financial Reinforcement Learning

🎯RLHF Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

💬LLMs Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

🎛️Fine-tuning Academic

SocraticPO: Policy Optimization via Interactive Guidance

🎯RLHF Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

🤖AI Academic

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

🎯RLHF Academic

Progress-SQL: Improving Reinforcement Learning for Text-to-SQL via Progressive Rewards

🎯RLHF Academic

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

🎯RLHF Academic

Self-evolving LLM agents with in-distribution Optimization

🎯RLHF Academic

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

🎯RLHF Academic

Policy Gradient for Continuous-Time Robust Markov Decision Processes

🎯RLHF Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

🎯RLHF Academic

3SPO: State-Score-Supervised Policy Optimization for LLM Agents

🎯AI Agents Academic

Drag reduction or reward hacking? Recurrent multi-agent reinforcement learning that earns its reward

🎯RLHF Academic

TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

🎯RLHF Academic

Path Planning Using Deep Deterministic Policy Gradient: A Reinforcement Learning Approach

🤖Game AI Academic

Log in to enable infinite scrolling