🎮 Reinforcement Learning - aibrain0x01 · Scour

Investigating Action Encodings in Recurrent Neural Networks in Reinforcement Learning 🔗Deep Learning

DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models 🎨Diffusion Models

Pedestrian-Aware LLM-Driven Behavioral Planning for Autonomous Vehicles 🧠Neuromorphic Computing

A Heuristic Approach for Performance Tuning in RL-based Quadrotor Control via Reward Design and Termination Conditions 🦾Robotics

Task-Semantic Graph-Driven Distributed Agent Networking for Underwater Target Tracking 🔐Cybersecurity

Sampling-Based Safe Reinforcement Learning 🛡️AI Safety

Distributed Zeroth-Order Policy Gradient for Networked Multi-agent Reinforcement Learning from Human Feedback 🔥PyTorch

DISA: Offline Importance Sampling for Distribution-Matching LLM-RL 🧠Machine Learning

When Outcome Looks Right But Discipline Fails: Trace-Based Evaluation Under Hidden Competitor State ⚖️AI Ethics

AIS: Adaptive Importance Sampling for Quantized RL ⚙️MLOps

Learning to Hand Off: Provably Convergent Workflow Learning under Interface Constraints ✨Generative AI

Offline Contextual Bandits in the Presence of New Actions 🧠Machine Learning

Response-Conditioned Parallel-to-Sequential Orchestration for Multi-Agent Systems 🧠Neuromorphic Computing

Fair-Aurora: Comparing Fairness Strategies for Reinforcement Learning-Based Congestion Control in Multi-Flow Environments ⚖️AI Ethics

Residual Reinforcement Learning for Robot Teleoperation under Stochastic Delays 🦾Robotics

Safe Deep Reinforcement Learning for Spacecraft Reorientation with Pointing Keep-Out Constraint 🛡️AI Safety

AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning 📝LLMs

An Encoded Corrective Double Deep Q-Networks for Multi-Agent Control Systems 🔥PyTorch

Equilibrium Selection in Multi-Agent Policy Gradients via Opponent-Aware Basin Entry 🔥PyTorch

Progressive Generalization Augmentation with Deeply Coupled RND-PPO and Domain-Prioritized Noise Injection for Robust Crop Management Reinforcement Learning 🧠Neuromorphic Computing

Log in to enable infinite scrolling