🎯 RLHF - moyutianzun · Scour

Emergence of Context Characteristics Sensitivity in Large Language Models

⚙post training infra Academic

Variational Proximal Policy Optimization

🎭Mixture of Experts Academic

DOG-DPO:Dynamic Optimization in Geometry for Safety Alignment

⚙post training infra Academic

Less-relevant results

Turkish Navy Confirms 2032 Delivery Date for MUGEM Aircraft Carrier

⚙post training infra

navalnews.com·

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

⚙post training infra Academic

PayPal and Hey Savi Launch UK’s First Agentic Commerce Platform, Debenhams Group Signs On

🤖agentic system

easternherald.com·

(VERY PARTIAL) CROSSPOST: ALEX HEATH: SubStack Is Opening Up to AI: Interviewing CEO Chris Best

⚙post training infra News Blog

braddelong.substack.com

Multilingual Refusal Alignment for Safer Large Language Models

📊LLM Evaluation Academic

PAFO: Pareto Fairness Optimization for Personalized Reward Modeling

⚙post training infra Academic

Substrate Asymmetry in User-Side Memory: A Diagnostic Framework

🎛️Fine-Tuning Academic

Harmfulness Directions in OLMo

⚙post training infra

lesswrong.com·

A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales

📊LLM Evaluation Academic

TLA-Prover: Verifiable TLA+ Specification Synthesis via Preference-Optimized Low-Rank Adaptation

⚙post training infra Academic

The Shibboleth Effect: Auditing the Cross-Lingual Distributional Skew of Large Language Models

⚙post training infra Academic

Emergent alignment and the projectability of ethical personas

🎛️Fine-Tuning Academic

What Do People Actually Want From AI? Mapping Preference Plurality

⚙post training infra Academic

Mechanistic Analysis of Alignment Algorithms in Language Models

⚙post training infra Academic

Korean Culture into LLM Alignment: Toward Cultural Coherence

⚙post training infra Academic

Hidden Consensus:Preference-Validity Compression in Human Feedback

⚙post training infra Academic

Better Literary Translation: A Multi-Aspect Data Generation and LLM Training Approach

⚙post training infra Academic

Sign up or log in to see more results

Log in to enable infinite scrolling