🎮 Reinforcement Learning - Bingran · Scour

TT-DAC-PS: Twin-Target Deterministic Actor-Critic with Policy Smoothing for Optimal Trade Execution

📈Quantitative Finance Academic

Performance Variation in Deep Reinforcement Learning

📉Deep Learning Academic

Space-sampled Value Decay: Forgetting Mechanisms for Non-stationary Deep Reinforcement Learning

🧠AI Research Academic

Deep Reinforcement Learning for Adaptive Power Allocation in ISAC Systems with Mobile Target

🔄Transformers Academic

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

📉Deep Learning Academic

Reinforcement Learning Disrupts Gradient-Based Adversarial Optimization

📉Deep Learning Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🔄Transformers Academic

A Unifying Lens on Reward Uncertainty in RLHF

⚙️Model Training Academic

Deterministic Policy Gradient for Learning Equilibrium in Time-Inconsistent Control Problems

📈Quantitative Finance Academic

Self-Paced Curriculum Reinforcement Learning for Autonomous Superbike Racing in Simulation

🤖AI Agents Academic

Representation Learning Enables Scalable Multitask Deep Reinforcement Learning

📉Deep Learning Academic

Generalization Hacking: Models Can Game Reinforcement Learning by Preventing Behavioral Generalization

🔄Transformers Academic

Variational Proximal Policy Optimization

📉Deep Learning Academic

UniIntervene: Agentic Intervention for Efficient Real-World Reinforcement Learning

🤖AI Agents Academic

Structure-Conditioned Actor-Critic Branches for Quality-Diversity Reinforcement Learning

📐Scaling Laws Academic

On Advantage Estimates for Max@K Policy Gradients

📐Scaling Laws Academic

Harnessing Routing Foresight for Micro-step-level MoE load balancing in RL Post-training

⚙️Model Training Academic

DriveReward: A Comprehensive Dataset and Generative Vision-Language Reward Model for Autonomous Driving

🖥️ML Systems Academic

Phi-Actor-Critic: Steering General-Sum Games to Pareto-Efficient Correlated Equilibria

🤖AI Agents Academic

Retry Policy Gradients in Continuous Action Spaces

📉Deep Learning Academic

Log in to enable infinite scrolling