🎯 RLHF - jhcha.oyo · Scour

DOG-DPO:Dynamic Optimization in Geometry for Safety Alignment

🎯Fine-Tuning Academic

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

🎮Reinforcement Learning Academic

What Do People Actually Want From AI? Mapping Preference Plurality

🎛️Fine-tuning Academic

Hidden Consensus:Preference-Validity Compression in Human Feedback

🎯Fine-Tuning Academic

RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training

🎛️Fine-tuning Academic

Multilingual Refusal Alignment for Safer Large Language Models

🎯Fine-Tuning Academic

Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization

🎛️Fine-tuning Academic

TLA-Prover: Verifiable TLA+ Specification Synthesis via Preference-Optimized Low-Rank Adaptation

🎛️Fine-tuning Academic

Pareto-Guided Teacher Alignment for Fair Personalized Text Generation

🎛️Fine-tuning Academic

Emergence of Context Characteristics Sensitivity in Large Language Models

🎛️Fine-tuning Academic

Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

🎛️Fine-tuning Academic

PriFT: Prior-Support Guided Supervised Fine-Tuning

🎛️Fine-tuning Academic

Better Literary Translation: A Multi-Aspect Data Generation and LLM Training Approach

🎛️Fine-tuning Academic

Gradient-Guided Reward Optimization for Inference-time Alignment

🎛️Fine-tuning Academic

On the Geometry of On-Policy Distillation

🎛️Fine-tuning Academic

GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards

🎮Reinforcement Learning Academic

DynaCF: Mitigating Shortcut Learning in Reward Models via Dynamic Counterfactual Sensitivity

🎮Reinforcement Learning Academic

Belief-Space Quantum-Inspired Reinforcement Learning for Partially Observable Autonomous Cyber Defense in the Internet of Vehicles

🎮Reinforcement Learning Academic

SCI-PRM: A Tool Aware Process Reward Model for Scientific Reasoning Verification

🎮Reinforcement Learning Academic

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

🎮Reinforcement Learning Academic

Log in to enable infinite scrolling