🎯 Reinforcement Learning from Human Feedback - aadhav · Scour

Introducing the Google Colab CLI

⚙️ML Systems Blog

developers.googleblog.com·

Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization

⚙️ML Systems Academic

Robust Multi-Mutant Protein Stability Prediction from a Fine-Tuned Evolutionary Scale Model

🧠Deep Learning Academic

PriFT: Prior-Support Guided Supervised Fine-Tuning

🎮RL Academic

Stack Overflow didn't just help AI learn to code

zozo123.github.io··Hacker News

A Unifying Lens on Reward Uncertainty in RLHF

🎮RL Academic

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

🎮RL Academic

Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

🧠Deep Learning Academic

Beyond Rubrics: Exploration-Guided Evaluation Skills for Reward Modeling

🎮RL Academic

Optimisation over non-stationary distributions creates weirder minds

lesswrong.com·

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

🎮RL Academic

Fisher-Guided Progressive Parameter Selection for Adaptive Fine-Tuning

🤖ML Academic

pLM-Guided Inverse Folding for Antibody Sequence Design

🛠️Systems Programming Academic

A Finetuned SpeechLLM for Joint Multi-Granular L2 Assessment and Natural-Language Rationales

⚙️ML Systems Academic

Emergence of Context Characteristics Sensitivity in Large Language Models

🎮RL Academic

The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring

⚙️ML Systems Academic

Training Deliberative Monitors for Black-Box Scheming Detection

lesswrong.com·

Alignment Defends LLMs from Property Inference Attacks

🎮RL Academic

PAFO: Pareto Fairness Optimization for Personalized Reward Modeling

🎮RL Academic

When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff

🎮RL Academic

Sign up or log in to see more results

Log in to enable infinite scrolling