🎮 Reinforcement Learning - jyunzhang · Scour

Performance Variation in Deep Reinforcement Learning

🔥PyTorch Academic

Reinforcement Learning and Optimal Control Book (RIP Dimitri Bertsekas)

📊Algorithms Academic

web.mit.edu··Hacker News

Researchers develop AI-powered railway control system for efficient urban train operation

techxplore.com·

Q-Learning (Reinforcement learning): Bellman Equation, Markov Decision Processes, Q-Values, and…

📈Optimization Blog

·

Reasoning RL in 2026: GRPO, DPO, RLVR, Agentic PO & Beyond

turingpost.com·

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

📈Optimization Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

📈Optimization Academic

Deep reinforcement learning for process design: Review and perspective

🧠Deep Learning Academic

Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning

🧠Deep Learning Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

🧠Deep Learning Academic

Policy Gradient for Continuous-Time Robust Markov Decision Processes

📈Optimization Academic

Event-Driven Reinforcement Learning Enables Long-Horizon Control in Semiconductor Fabrication

🔲Cellular Automata Academic

UNIQ: Conformal Calibration for Adaptive Conservatism in Offline Reinforcement Learning

🦙Ollama Academic

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

📈Optimization Academic

Dynamic Multi-Pair Trading Strategy in Cryptocurrency Markets with Deep Reinforcement Learning

🔥PyTorch Academic

Self-Paced Curriculum Reinforcement Learning for Autonomous Superbike Racing in Simulation

⚡Code Generation Academic

Development of COVID-19 Booster Vaccine Policy by Microsimulation and Q-learning

🧠Deep Learning Academic

GIFT: LLM-Guided State-Reward Interface for Financial Reinforcement Learning

💬Prompt Engineering Academic

Geometry-Aware Reinforcement Learning for 2D Irregular Nesting

🔲Cellular Automata Academic

Self-Distilled Policy Gradient

📈Optimization Academic

Log in to enable infinite scrolling