🎯 Reinforcement Learning - hello · Scour

Self-Play Reinforcement Learning under Imperfect Information in Big 2 🎮Game Theory

PPO vs SAC: 1-GPU Memory & Compute Cost Benchmark 🚀Performance

tildalice.io·6d

The Challenges of Using Reinforcement Learning for Controlling Industrial Energy Systems 💬Prompt Engineering

Convergence of Two-Timescale Markovian Stochastic Approximations with Applications in Reinforcement Learning 📊Dynamic Programming

CleanRL vs Stable Baselines3: PPO Training 2.3x Faster ⏪Deoptimization

tildalice.io·5d

Zero Collapse: A Failure Mode of Policy Gradient Methods in Discontinuous Reward Environments ⚓Anchors

Survival Reinforcement Learning: Toward Scalable Self-Supervised RL ⚓Anchors

Feat2Go: Visual Feature-Grounded Value Estimation for Embodied Reinforcement Learning 📱Edge AI

DeepSeekMath Meets Order Book: Group-Aware Policy Optimization for High-Frequency Directional Trading ⚙️LMAX Architecture

Refined Analysis of Entropy-Regularized Actor-Critic 📊Dynamic Programming

Reinforcement Learning from Denoising Feedback 📊Dynamic Programming

Efficient On-policy Visual-RL via Stochastic Decoupled Policy Gradient 🤖TVM

ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation 📊HyperLogLog

Explicit Critic Guidance for Aligning Diffusion Models ⚓Anchors

Robust Koopman Control Barrier Filters for Safe Actor-Critic Reinforcement Learning 🤖Robotics

Moment Matching Q-Learning 📱Edge AI

Global Convergence of Wasserstein Policy Gradient for Entropy-Regularized Reinforcement Learning 📊Optimization

Commit to the Bit: Reactive Reinforcement Learning Done Right 🎲Deterministic Simulation

When LLM Reward Design Fails: Diagnostic-Driven Refinement for Sparse Structured RL ⚡Incremental Computation

Reinforcement Learning with Robust Rubric Rewards 📊Dynamic Programming

Log in to enable infinite scrolling