🎮 Reinforcement Learning - jhcha.oyo · Scour

OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation

🎯RLHF Academic

COP-Q: Safety-First Reinforcement Learning for Robot Control via Cholesky-Ordered Projection

🎯RLHF Academic

Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models

🎛️Fine-tuning Academic

Neetyabhas: A Framework for Uncertainty-Aware Public Policy Optimization in Rational Agent-Based Models

📊Bayesian Statistics Academic

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

🎯RLHF Academic

AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning

🎯AI Agents Academic

Log in to enable infinite scrolling