🎮 Reinforcement Learning - aibrain0x01 · Scour

Resolving Action Bottleneck: Agentic Reinforcement Learning Informed by Token-Level Energy 🧠Neuromorphic Computing

A Red Teaming Framework for Evaluating Robustness of AI-enabled Security Orchestration, Automation, and Response Systems 🛡️AI Safety

Prompt Optimization for LLM Code Generation via Reinforcement Learning 📝LLMs

Policy Optimization in Hybrid Discrete-Continuous Action Spaces via Mixed Gradients ✨Generative AI

The Dynamics of Policy Gradient in Social Dilemmas with Partner Selection ⚖️AI Ethics

Learning-Zone Energy: Online Data Selection for Efficient RL Post-Training 🧠Machine Learning

Critic-Driven Voronoi-Quantization for Distilling Deep RL Policies to Explainable Models 🔥PyTorch

Weak-to-Strong Elicitation via Mismatched Wrong Drafts 🔍RAG

Clock-state olfactory search in turbulent flows using Q-learning: The geometry of plume recovery 🧠Neuromorphic Computing

When Critics Disagree: Adaptive Reward Poisoning Attacks in RIS-Aided Wireless Control System 🧠Neuromorphic Computing

Emergence of a Flow-Assisted Casting Strategy for Olfactory Navigation via Memory-Augmented Reinforcement Learning 🧠Neuromorphic Computing

Temporal Fair Division in Multi-Agent Systems: From Precise Alternation Metrics to Scalable Coordination Proxies ⚖️AI Ethics

A Machine with Short-Term, Episodic, and Semantic Memory Systems 🧠Neuromorphic Computing

Convergence of Stochastic First-Order Algorithms in Bertrand Competition Under Incomplete Information 🧠Machine Learning

Chrono-Gymnasium: An Open-Source, Gymnasium-Compatible Distributed Simulation Framework 🔥PyTorch

Shared Backbone PPO for Multi-UAV Communication Coverage with Connection Preservation 🔥PyTorch

Curriculum-Guided Heterogeneous Multi-Agent Intelligence for Multi-UAV Cooperative ISAC 🔐Cybersecurity

Dual Hierarchical Dialogue Policy Learning for Legal Inquisitive Conversational Agents 📝LLMs

Addressing Terminal Constraints in Data-Driven Demand Response Scheduling 🧠Machine Learning

Randomized Advantage Transformation (RAT): Computing Natural Policy Gradients via Direct Backpropagation 🔥PyTorch

Sign up or log in to see more results

Log in to enable infinite scrolling