🎯 RLHF - jhcha.oyo · Scour

Sequential Data Poisoning in LLM Post-Training

🎛️Fine-tuning Academic

Tracing Eval-Awareness Emergence Through Training of OLMo 3

🎛️Fine-tuning

lesswrong.com·

Reasoning RL in 2026: GRPO, DPO, RLVR, Agentic PO & Beyond

🎮Reinforcement Learning

turingpost.com·

A Unifying Lens on Reward Uncertainty in RLHF

🎮Reinforcement Learning Academic

Sequent: scale and automation for higher confidence in alignment

🎯Fine-Tuning

lesswrong.com·

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

🎯Fine-Tuning Academic

Mult-DPO: Multinomial Direct Preference Optimization for Recommender Systems

🎛️Fine-tuning Academic

Variational Proximal Policy Optimization

🎮Reinforcement Learning Academic

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

🎮Reinforcement Learning Academic

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

🎯Fine-Tuning Academic

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

🎯Fine-Tuning Academic

Mechanistic Analysis of Alignment Algorithms in Language Models

🎯Fine-Tuning Academic

A Regret Minimization Framework on Preference Learning in Large Language Models

🎮Reinforcement Learning Academic

Alignment Defends LLMs from Property Inference Attacks

🎯Fine-Tuning Academic

Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling

🎛️Fine-tuning Academic

DriveReward: A Comprehensive Dataset and Generative Vision-Language Reward Model for Autonomous Driving

🎮Reinforcement Learning Academic

When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff

🎛️Fine-tuning Academic

RASFT: Rollout-Adaptive Supervised Fine-Tuning for Reasoning

🎛️Fine-tuning Academic

A Unifying Lens on Supervised Fine-Tuning Through Target Distribution Design

🎛️Fine-tuning Academic

EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms

🎛️Fine-tuning Academic

Log in to enable infinite scrolling