🎯 Reinforcement Learning - Scourface · Scour

Weak-to-Strong Elicitation via Mismatched Wrong Drafts 🔄Meta-Learning

Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems 🎯Predictive Coding

QuantFPFlow: Quantum Amplitude Estimation for Fokker--Planck Policy Optimisation in Continuous Reinforcement Learning 🧠Neuromorphic Hardware

On Gaussian approximation for entropy-regularized Q-learning with function approximation 🌳recursive neural networks

Resolving Action Bottleneck: Agentic Reinforcement Learning Informed by Token-Level Energy 🔄Meta-Learning

Equilibrium Selection in Multi-Agent Policy Gradients via Opponent-Aware Basin Entry 🌳recursive neural networks

When Critics Disagree: Adaptive Reward Poisoning Attacks in RIS-Aided Wireless Control System 🧠Neuromorphic Hardware

Identifying Culprits Through Deep Deterministic Policy Gradient Deep Learning Investigation 🤖Machine Learning

Prompt Optimization for LLM Code Generation via Reinforcement Learning 🌳recursive neural networks

Distributed Zeroth-Order Policy Gradient for Networked Multi-agent Reinforcement Learning from Human Feedback 🧠Neuromorphic Hardware

The Dynamics of Policy Gradient in Social Dilemmas with Partner Selection 🧠Neuromorphic Hardware

Scalable Bi-causal Optimal Transport via KL Relaxation and Policy Gradients 🔄Meta-Learning

Clock-state olfactory search in turbulent flows using Q-learning: The geometry of plume recovery 🧠Neuromorphic Hardware

Shared Backbone PPO for Multi-UAV Communication Coverage with Connection Preservation 🕸Mesh Networking

EUPHORIA: Efficient Universal Planning via Hybrid Optimization for Robust Industrial Robotic Assembly 🦑Soft Robotics

Flow Field Reconstruction with Sensor Placement Policy Learning 🧠Neuromorphic Computing

Leveraging Deep Reinforcement Learning for Clustered Cell-Free Networking Over User Mobility 🕸Mesh Networking

AIS: Adaptive Importance Sampling for Quantized RL 🔄Meta-Learning

A Heuristic Approach for Performance Tuning in RL-based Quadrotor Control via Reward Design and Termination Conditions 🦾Robotics

A Multi-Layer Cloud-IDS Pipeline with LLM and Adaptive Q-Learning Calibration 🔄Meta-Learning

Sign up or log in to see more results

Log in to enable infinite scrolling