🎮 Reinforcement Learning - aibrain0x01 · Scour

TT-DAC-PS: Twin-Target Deterministic Actor-Critic with Policy Smoothing for Optimal Trade Execution

🔗Deep Learning Academic

Reasoning RL in 2026: GRPO, DPO, RLVR, Agentic PO & Beyond

turingpost.com·

Researchers develop AI-powered railway control system for efficient urban train operation

techxplore.com·

Q-Learning (Reinforcement learning): Bellman Equation, Markov Decision Processes, Q-Values, and…

🔗Deep Learning Blog

·

Reinforcement Learning and Optimal Control Book (RIP Dimitri Bertsekas)

🦾Robotics Academic

web.mit.edu··Hacker News

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

🔥PyTorch Academic

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

🔥PyTorch Academic

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

✨Generative AI Academic

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

🔥PyTorch Academic

Dmsh: A Multi-Agent Reinforcement Learning Framework for All-Quad Mesh Generation

🧠Neuromorphic Computing Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

🔗Deep Learning Academic

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

🦾Robotics Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

🔥PyTorch Academic

Performance Variation in Deep Reinforcement Learning

📱Edge AI Academic

Reasoning or Memorization? Direction-Aware Diversity Exploration in LLM Reinforcement Learning

📝LLMs Academic

GARL: Game-Theoretic Reinforcement Learning for Multi-Agent Strategic Prioritisation

🤖AI Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

📝LLMs Academic

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

📝LLMs Academic

Reinforcement Learning for Flow-Matching Policies with Density Transport

🤖AI Academic

SHAPO: Sharpness-Aware Policy Optimization for Safe Exploration

🛡️AI Safety Academic

Log in to enable infinite scrolling