🎯 RLHF - liqihui02 · Scour

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

🤖reinforcement learning, deep learning, machine learning Academic

Less-relevant results

Neglected Basics of AI Alignment

🤖reinforcement learning, deep learning, machine learning

lesswrong.com·

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

🎮Q-Learning Academic

Multilingual Refusal Alignment for Safer Large Language Models

🤖recommendation systems, LLM, large langurage model Academic

A Regret Minimization Framework on Preference Learning in Large Language Models

🤖reinforcement learning, deep learning, machine learning Academic

Sequent: scale and automation for higher confidence in alignment

🤖reinforcement learning, deep learning, machine learning

lesswrong.com·

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

🤖reinforcement learning, deep learning, machine learning Academic

DOG-DPO:Dynamic Optimization in Geometry for Safety Alignment

🎮Q-Learning Academic

SARM2: Multi-Task Stage Aware Reward Modeling for Self Improving Robotic Manipulation

🎮Q-Learning Academic

Beyond Rubrics: Exploration-Guided Evaluation Skills for Reward Modeling

🤖recommendation systems, LLM, large langurage model Academic

A Unifying Lens on Reward Uncertainty in RLHF

🤖reinforcement learning, deep learning, machine learning Academic

Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning

🎮Q-Learning Academic

What Fits (Into Few Tokens) Doesn't Overfit: Compression and Generalization in ML Research Agents

🤖reinforcement learning, deep learning, machine learning Academic

Self-evolving LLM agents with in-distribution Optimization

🎮Q-Learning Academic

Korean Culture into LLM Alignment: Toward Cultural Coherence

🤖recommendation systems, LLM, large langurage model Academic

What Do People Actually Want From AI? Mapping Preference Plurality

🤖reinforcement learning, deep learning, machine learning Academic

SkelDPO: A Skeleton-Guided Direct Preference Optimization Framework for Efficient Code Generation

🤖recommendation systems, LLM, large langurage model Academic

Substrate Asymmetry in User-Side Memory: A Diagnostic Framework

🤖reinforcement learning, deep learning, machine learning Academic

Pareto-Guided Teacher Alignment for Fair Personalized Text Generation

🔤NLP Academic

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

🤖Transformers Academic

Sign up or log in to see more results

Log in to enable infinite scrolling