🎯 RLHF - jhcha.oyo · Scour

Performance Variation in Deep Reinforcement Learning

🎮Reinforcement Learning Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🎮Reinforcement Learning Academic

Stage-1 Controls the Entropy Regime, Not the Outcome

🎛️Fine-tuning Academic

GIFT: LLM-Guided State-Reward Interface for Financial Reinforcement Learning

🎮Reinforcement Learning Academic

CapRL++: Unified Reinforcement Learning with Verifiable Rewards for Dense Image and Video Captioning

🎛️Fine-tuning Academic

A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales

🎛️Fine-tuning Academic

No more posts from jhcha.oyo's subscribed feeds.

Scour all 25257 feeds Learn more about Feeds

Log in to enable infinite scrolling