🎮 Reinforcement Learning - Bingran · Scour

Essential role of self-interaction correction in single-atom catalysis: From electronic structure to activity predictions

📐Scaling Laws

I got so mad at poke(rogue)like that I trained a RL agent to beat it for me

⚙️Model Training

thiagolira.blot.im··Hacker News

Deep Reinforcement Learning for Adaptive Power Allocation in ISAC Systems with Mobile Target

🔄Transformers Academic

Reinforcement learning in linear embedding space unlocks generalizable control across soft robot configurations

📐Scaling Laws Academic

Reinforcement Learning Disrupts Gradient-Based Adversarial Optimization

📉Deep Learning Academic

Deterministic Policy Gradient for Learning Equilibrium in Time-Inconsistent Control Problems

📈Quantitative Finance Academic

KJLdefeated/RL.cu: RLVR training for LLM in CUDA/C++

🖥️ML Systems Code

github.com··Hacker News

Generalization Hacking: Models Can Game Reinforcement Learning by Preventing Behavioral Generalization

🔄Transformers Academic

UniIntervene: Agentic Intervention for Efficient Real-World Reinforcement Learning

🤖AI Agents Academic

Harnessing Routing Foresight for Micro-step-level MoE load balancing in RL Post-training

⚙️Model Training Academic

Phi-Actor-Critic: Steering General-Sum Games to Pareto-Efficient Correlated Equilibria

🤖AI Agents Academic

Mitigating Bias in Low-SNR Financial Reinforcement Learning via Quantum Representations

📈Quantitative Finance Academic

APPO: Agentic Procedural Policy Optimization

🤖AI Agents Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

📉Deep Learning Academic

Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models

🔍Interpretability Academic

A Unifying Lens on Reward Uncertainty in RLHF

⚙️Model Training Academic

Plan-and-Verify Video Reward Reasoning with Spatio-Temporal Scene Graph Grounding

🔄Transformers Academic

Fast and Highly Expressive Policy Learning for Offline Reinforcement Learning via Bootstrapped Flow Q-Learning

🧠AI Research Academic

Critic Architecture Matters: Dual vs. Unified Critics for Humanoid Loco-Manipulation

⚙️Model Training Academic

Performance Variation in Deep Reinforcement Learning

📉Deep Learning Academic

Log in to enable infinite scrolling