🎛️ Fine-tuning - jhcha.oyo · Scour

Rethinking LoRA Memory Through the Lens of KV Cache Compression

🎯Fine-Tuning Academic

Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data

🎯Fine-Tuning Academic

EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms

🎯Fine-Tuning Academic

Imbuing Large Language Models with Bidirectional Logic for Robust Chain Repair

🤖AI Academic

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

🎯RLHF Academic

Dominant-Layer ZO: A Single Layer Dominates Zeroth-Order Fine-Tuning of LLMs

💬LLMs Academic

No more posts from jhcha.oyo's subscribed feeds.

Scour all 25257 feeds Learn more about Feeds

Log in to enable infinite scrolling