Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments

View PDF HTML (experimental)

Abstract:Group Relative Policy Optimization (GRPO) has emerged as a scalable alternative to Proximal Policy Optimization (PPO) by eliminating the learned critic and instead estimating advantages through group-relative comparisons of trajectories. This simplification raises fundamental questions about the necessity of learned baselines in policy-gradient methods. We present the first systematic study of GRPO in classical single-task reinforcement learning environments, spanning discrete and continuous control tasks. Through controlled ablations isolating baselines, discounting, and group sampling, we reveal three key findings: (1) learned critics remain essential for long-ho…

View PDF HTML (experimental)

Abstract:Group Relative Policy Optimization (GRPO) has emerged as a scalable alternative to Proximal Policy Optimization (PPO) by eliminating the learned critic and instead estimating advantages through group-relative comparisons of trajectories. This simplification raises fundamental questions about the necessity of learned baselines in policy-gradient methods. We present the first systematic study of GRPO in classical single-task reinforcement learning environments, spanning discrete and continuous control tasks. Through controlled ablations isolating baselines, discounting, and group sampling, we reveal three key findings: (1) learned critics remain essential for long-horizon tasks: all critic-free baselines underperform PPO except in short-horizon environments like CartPole where episodic returns can be effective; (2) GRPO benefits from high discount factors (gamma = 0.99) except in HalfCheetah, where lack of early termination favors moderate discounting (gamma = 0.9); (3) smaller group sizes outperform larger ones, suggesting limitations in batch-based grouping strategies that mix unrelated episodes. These results reveal both the limitations of critic-free methods in classical control and the specific conditions where they remain viable alternatives to learned value functions.


Subjects:	Machine Learning (cs.LG)
Cite as:	arXiv:2511.03527 [cs.LG]
	(or arXiv:2511.03527v1 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2511.03527 arXiv-issued DOI via DataCite (pending registration)

Submission history

From: Bryan Lincoln Marques De Oliveira [view email] [v1] Wed, 5 Nov 2025 15:01:32 UTC (2,665 KB)

Submission history

Similar Posts