🎮 Reinforcement Learning - smyrna · Scour

Policy Gradient for Continuous-Time Robust Markov Decision Processes

🔗Markov Chains Academic

Researchers develop AI-powered railway control system for efficient urban train operation

🤖Machine Learning

techxplore.com·

Q-Learning (Reinforcement learning): Bellman Equation, Markov Decision Processes, Q-Values, and…

🔗Markov Chains Blog

·

Reinforcement Learning and Optimal Control Book (RIP Dimitri Bertsekas)

🤖Machine Learning Academic

web.mit.edu··Hacker News

Reasoning RL in 2026: GRPO, DPO, RLVR, Agentic PO & Beyond

turingpost.com·

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

🔢TensorFlow Academic

Variational Proximal Policy Optimization

🤖Machine Learning Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

🤖Machine Learning Academic

UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning

🔢TensorFlow Academic

Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning

🤖Machine Learning Academic

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

💬Natural Language Processing Academic

Geometry-Aware Reinforcement Learning for 2D Irregular Nesting

✨Generative Art Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

🔢TensorFlow Academic

Event-Driven Reinforcement Learning Enables Long-Horizon Control in Semiconductor Fabrication

🤖Machine Learning Academic

Self-Distilled Policy Gradient

🔢TensorFlow Academic

A Regret Minimization Framework on Preference Learning in Large Language Models

🤖AI Academic

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

🤖AI Academic

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

💬Natural Language Processing Academic

On Advantage Estimates for Max@K Policy Gradients

🔢TensorFlow Academic

Deep reinforcement learning for process design: Review and perspective

🔢TensorFlow Academic

Log in to enable infinite scrolling