🎮 Reinforcement Learning - Bingran · Scour

Neuro-Symbolic Injection of LTLf Constraints in Autoregressive Reinforcement Learning Policies

💬LLMs Academic

Multi-agent rendezvous in fluid flows via reinforcement learning

🤖AI Agents Academic

Adaptive Loss Balancing for Noise-Robust GRPO in Generative Recommendation

🔄Transformers Academic

Merging model-based control with multi-agent reinforcement learning for multi-agent cooperative teaming strategies

🤖AI Agents Academic

Improving Generalization and Data Efficiency with Diffusion in Offline Multi-agent RL

🤖AI Agents Academic

ConSteer-RL: Steering Reasoning Capabilities in Large Language Models via Confidence-Aware Reinforcement Learning

💬LLMs Academic

Deep reinforcement learning for process design: Review and perspective

📉Deep Learning Academic

EEGDancer: Dynamic Emotion Latent Space Masked Modeling with Reinforcement Learning for EEG Continuous Emotion Prediction

🧠AI Research Academic

SVoT: State-aware Visualization-of-Thought for Spatial Reasoning via Reinforcement Learning

🔄Transformers Academic

Beyond Uniform Token-Level Trust Region in LLM Reinforcement Learning

💬LLMs Academic

KinematicRL: A Sim-to-Real Reinforcement Learning Framework For Social Navigation With Kinodynamic Feasibility

🤖AI Agents Academic

Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models

🔄Transformers Academic

Safe-RULE: Safe Reinforcement UnLEarning

📉Deep Learning Academic

RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

📉Deep Learning Academic

Belief-Space Quantum-Inspired Reinforcement Learning for Partially Observable Autonomous Cyber Defense in the Internet of Vehicles

📐Scaling Laws Academic

StainFlow: Entity-Stain Tracking and Evidence Linking for Process Rewards in GUI Agents

🤖AI Agents Academic

RoboNaldo: Accurate, Stable and Powerful Humanoid Soccer Shooting via Motion-Guided Curriculum Reinforcement Learning

🔄Transformers Academic

DynaCF: Mitigating Shortcut Learning in Reward Models via Dynamic Counterfactual Sensitivity

🔍Interpretability Academic

ProcessThinker: Enhancing Multi-modal Large Language Models Reasoning via Rollout-based Process Reward

🧠AI Research Academic

SALT: When More Rollouts Don't Help in Group-Based Policy Optimization and How to Make Them Matter

📐Scaling Laws Academic

No more posts from Bingran's subscribed feeds.

Scour all 25258 feeds Learn more about Feeds

Sign up or log in to see more results

Log in to enable infinite scrolling