🎯 Fine-Tuning - jhcha.oyo

🎯RLHF Academic

arxiv.org·

High-Dimensional Theory of LoRA Fine-Tuning in a Solvable Attention Model

🎛️Fine-tuning Academic

arxiv.org·

Whose Norms? Disentangling Cultural and Personal Alignment in Large Language Models

🎯RLHF Academic

arxiv.org·

The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring

💬LLMs Academic

arxiv.org·

Rethinking LoRA Memory Through the Lens of KV Cache Compression

🎛️Fine-tuning Academic

arxiv.org·

Emergence of Context Characteristics Sensitivity in Large Language Models

🎛️Fine-tuning Academic

arxiv.org·

Null-Space Constrained Low-Rank Adaptation for Response-Specified Large Language Model Unlearning

🎛️Fine-tuning Academic

arxiv.org·

Customization under Fire: Plugin Poisoning in Text-to-Image Ecosystem

🎨Generative AI Academic

arxiv.org·

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

🎯RLHF Academic

arxiv.org·

Lost in the Flow with Code Talkers: Unveiling the Instruction-Tuning Tax of Large Language Models in Code Tasks

⚡Code Generation Academic

arxiv.org·

Subtitle-Aligned Fine-Tuning of Whisper for Swiss German ASR: Benchmark Contamination, Convention Mismatch, and an Honest Baseline at 25.6% WER (13.8% cWER)

🎛️Fine-tuning Academic

arxiv.org·

Dominant-Layer ZO: A Single Layer Dominates Zeroth-Order Fine-Tuning of LLMs

💬LLMs Academic

arxiv.org·

Data Synthesis and Parameter-Efficient Fine-Tuning for Low-Resource NMT: A Case Study on Q'eqchi' Mayan

🎛️Fine-tuning Academic

arxiv.org·

Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data

🎛️Fine-tuning Academic

arxiv.org·

Distilling Safe LLM Systems via Soft Prompts for On Device Settings

🎛️Fine-tuning Academic

arxiv.org·

How Small Can You Go? LoRA Fine-Tuning 270M-8B Models for Merchant Information Extraction in Financial Transactions

🎛️Fine-tuning Academic

arxiv.org·

EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms

🎛️Fine-tuning Academic

arxiv.org·

MailoHLS: Multi-Adapter Structure-Aware Learning for Pareto-Driven HLS Pragma Optimization

🎛️Fine-tuning Academic

arxiv.org·

Fisher-Guided Progressive Parameter Selection for Adaptive Fine-Tuning

Phantom transitions in language model fine-tuning

Mechanistic Analysis of Alignment Algorithms in Language Models

High-Dimensional Theory of LoRA Fine-Tuning in a Solvable Attention Model

Whose Norms? Disentangling Cultural and Personal Alignment in Large Language Models

The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring

Rethinking LoRA Memory Through the Lens of KV Cache Compression

Emergence of Context Characteristics Sensitivity in Large Language Models

Null-Space Constrained Low-Rank Adaptation for Response-Specified Large Language Model Unlearning

Customization under Fire: Plugin Poisoning in Text-to-Image Ecosystem

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

Lost in the Flow with Code Talkers: Unveiling the Instruction-Tuning Tax of Large Language Models in Code Tasks

Subtitle-Aligned Fine-Tuning of Whisper for Swiss German ASR: Benchmark Contamination, Convention Mismatch, and an Honest Baseline at 25.6% WER (13.8% cWER)

Dominant-Layer ZO: A Single Layer Dominates Zeroth-Order Fine-Tuning of LLMs

Data Synthesis and Parameter-Efficient Fine-Tuning for Low-Resource NMT: A Case Study on Q'eqchi' Mayan

Recover-LoRA for Aggressive Quantization: Reclaiming Accuracy in 2-Bit Language Models via Low-Rank Adaptation with Knowledge Distillation on Synthetic Data

Distilling Safe LLM Systems via Soft Prompts for On Device Settings

How Small Can You Go? LoRA Fine-Tuning 270M-8B Models for Merchant Information Extraction in Financial Transactions

EvalStop: Using World Feedback to Detect and Correct Reward Overoptimization in Multi-Tenant RLHF Platforms

MailoHLS: Multi-Adapter Structure-Aware Learning for Pareto-Driven HLS Pragma Optimization