🎛️ Fine-tuning - jhcha.oyo · Scour

Mult-DPO: Multinomial Direct Preference Optimization for Recommender Systems

🎯RLHF Academic

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

🎯Fine-Tuning Academic

RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training

🎯RLHF Academic

Fisher-Guided Progressive Parameter Selection for Adaptive Fine-Tuning

🎯Fine-Tuning Academic

Distilling Safe LLM Systems via Soft Prompts for On Device Settings

💬LLMs Academic

AuRA: Internalizing Audio Understanding into LLMs as LoRA

🎯Fine-Tuning Academic

PEFT of SLM for Telecommunications Customer Support: A Comparative Study of LoRA Configurations with Energy Consumption Analysis

🎯Fine-Tuning Academic

On the Geometry of On-Policy Distillation

🎮Reinforcement Learning Academic

Supervised Fine-tuning with Synthetic Rationale Data Hurts Real-World Disease Prediction

🎯RLHF Academic

Benchmarking Empirical Privacy Protection for Adaptations of Large Language Models

💬LLMs Academic

Alignment Defends LLMs from Property Inference Attacks

🎯Fine-Tuning Academic

Breaking the Tokenizer Barrier: On-Policy Distillation across Model Families

💬LLMs Academic

High-Dimensional Theory of LoRA Fine-Tuning in a Solvable Attention Model

🎯Fine-Tuning Academic

Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization

✍️Prompt Engineering Academic

Data Synthesis and Parameter-Efficient Fine-Tuning for Low-Resource NMT: A Case Study on Q'eqchi' Mayan

🎯Fine-Tuning Academic

Domain-Adapted Small Language Models with Hybrid Post-Processing: Achieving Cost-Efficient, Low-Latency Multi-Label Structured Prediction via LoRA Fine-Tuning on Scarce Data

🎯Fine-Tuning Academic

Post-training is (Massive) Supervised Learning

⚡Transformers Academic

TLA-Prover: Verifiable TLA+ Specification Synthesis via Preference-Optimized Low-Rank Adaptation

🎯RLHF Academic

Defending Against Malicious Finetuning by Scaling Train-time Adversarial Attacks

🎯Fine-Tuning Academic

Better Literary Translation: A Multi-Aspect Data Generation and LLM Training Approach

🎯RLHF Academic

Log in to enable infinite scrolling