🎯 Reinforcement Learning - elasticbounce · Scour

Performance Variation in Deep Reinforcement Learning

🧠Active Inference Academic

Reasoning RL in 2026: GRPO, DPO, RLVR, Agentic PO & Beyond

turingpost.com·

Researchers develop AI-powered railway control system for efficient urban train operation

🦾Bio inspired robotics

techxplore.com·

Q-Learning (Reinforcement learning): Bellman Equation, Markov Decision Processes, Q-Values, and…

⚙️Computational Mechanics Blog

·

Reinforcement Learning and Optimal Control Book (RIP Dimitri Bertsekas)

⚙️Computational Mechanics Academic

web.mit.edu··Hacker News

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

🔄Continual Learning Academic

Good teachers don’t cheat

📡Information Theory Blog

jasonkena.github.io··Hacker News

SimarcLabs/pybullet-swarm-sim: Python framework for simulating drone swarms with PyBullet in seconds.

🐝Collective Intelligence Code

github.com··r/opensource

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🧠Active Inference Academic

Discovering Interpretable Multi-Parameter Control Policies for Evolutionary Algorithms Using Deep Reinforcement Learning

🧬Evolutionary Computation Academic

Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

🧠Active Inference Academic

TT-DAC-PS: Twin-Target Deterministic Actor-Critic with Policy Smoothing for Optimal Trade Execution

🧬Evolutionary Computation Academic

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

🧠Active Inference Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

🔄Continual Learning Academic

Geometrically Averaged Hard Target Updates for Linear Q-Learning

📐Information geometry Academic

Variational Proximal Policy Optimization

🧠Active Inference Academic

SocraticPO: Policy Optimization via Interactive Guidance

🔄Continual Learning Academic

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

🌀Open-Ended Learning Academic

Event-Driven Reinforcement Learning Enables Long-Horizon Control in Semiconductor Fabrication

🌐Complex Systems Academic

Policy Gradient for Continuous-Time Robust Markov Decision Processes

⚙️Computational Mechanics Academic

Log in to enable infinite scrolling