🧠 Ai - Almightygiraffe · Scour

A Regret Minimization Framework on Preference Learning in Large Language Models

🔭Observability Academic

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

🔭Observability Academic

Hidden Consensus:Preference-Validity Compression in Human Feedback

🔭Observability Academic

Principled Agent Debate: Adversarial Arbitration for Sycophancy Reduction in Large Language Models

📈Time Series Analysis Academic

Do We Want a Superintelligent People-Pleaser?

lesswrong.com·

EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms

⚙System Design Academic

Sequential Data Poisoning in LLM Post-Training

📈Time Series Analysis Academic

Sparse Mixture-of-Experts Reward Models Learn Interpretable and Specialized Experts for Personalized Preference Modeling

🤖Kitchen Automation Academic

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

🔭Observability Academic

What Do People Actually Want From AI? Mapping Preference Plurality

🔭Observability Academic

Log in to enable infinite scrolling