🎮 Reinforcement Learning - jhcha.oyo · Scour

Selective-Advantage Entropy-Adaptive Horizon GRPO: Asymmetric Token-Level Discounting for Efficient Reinforcement Learning of Language Models

🎛️Fine-tuning Academic

Neetyabhas: A Framework for Uncertainty-Aware Public Policy Optimization in Rational Agent-Based Models

📊Bayesian Statistics Academic

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

🎯RLHF Academic

AgentJet: A Flexible Swarm Training Framework for Agentic Reinforcement Learning

🎯AI Agents Academic

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

🎯RLHF Academic

Scenario Generation for Risk-Aware Reinforcement Learning with Probably Approximately Safe Guarantees

🎯RLHF Academic

No more posts from jhcha.oyo's subscribed feeds.

Scour all 25257 feeds Learn more about Feeds

Log in to enable infinite scrolling