🎛️ Fine-tuning - jhcha.oyo · Scour

Parameter-Efficient Fine-Tuning with Learnable Rank

🎯Fine-Tuning Academic

Measuring Embedding Drift: Why Hybrid Search Saves Stale Models.

🎯Fine-Tuning

pub.towardsai.net

·

Some Interesting Papers on RLVR

🎮Reinforcement Learning

lesswrong.com·

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling

✍️Prompt Engineering

kdnuggets.com·

Five Ways to Fine-Tune Chronos-2, the Time Series Foundation Model

🎯Fine-Tuning

towardsdatascience.com·

Tracing Eval-Awareness Emergence Through Training of OLMo 3

lesswrong.com·

RASFT: Rollout-Adaptive Supervised Fine-Tuning for Reasoning

🎯RLHF Academic

Small Data, Big Noise: Adversarial Training for Robust Parameter-Efficient Fine-Tuning

🎯Fine-Tuning Academic

How to reduce capability degradation from off-model SFT

✍️Prompt Engineering

lesswrong.com·

Fine-tuning vs RAG vs MeMo: Where should LLM Knowledge Live?

🎯Fine-Tuning

pub.towardsai.net

·

Which LoRA? An Empirical Study on the Effectiveness of LoRA Techniques During Multilingual Instruction Tuning

🎯Fine-Tuning Academic

The Fine-Tuning Trap: Evaluating Negative Transfer and the Role of PEFT in Sub-1B Mathematical Reasoning

🎯Fine-Tuning Academic

When RL Fails after SFT: Rejuvenating Model Plasticity for Robust SFT-to-RL Handoff

🎯RLHF Academic

Emergence of Context Characteristics Sensitivity in Large Language Models

🎯Fine-Tuning Academic

A Unifying Lens on Supervised Fine-Tuning Through Target Distribution Design

🎯RLHF Academic

Instruction Finetuning DeepSeek-R1-8B Model Using LoRA and NEFTune

🎯Fine-Tuning Academic

PriFT: Prior-Support Guided Supervised Fine-Tuning

🎯RLHF Academic

Sequential Data Poisoning in LLM Post-Training

🎯RLHF Academic

Auditing Training Data in Domain-adapted LLMs: LoRA-MINT

🎯Fine-Tuning Academic

Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

✍️Prompt Engineering Academic

Log in to enable infinite scrolling