🎛️ Fine-tuning - shanesveller · Scour

Sequential Data Poisoning in LLM Post-Training

🔥Burn Academic

SecLoRA: Secure Aggregation of Low-Rank Matrix Products via Functional Encryption

🔐Cryptography

eprint.iacr.org·

Less-relevant results

If Claude Fable stops helping you, you'll never know

🧭Content Discovery Blog

jonready.com··Lobsters, Hacker News

GGUF vs GPTQ vs AWQ: The Plain-English Guide to LLM Quantization (and Which One to Pick)

🗄️Database Internals

vettedconsumer.com··Hacker News

The Fine-Tuning Trap: Evaluating Negative Transfer and the Role of PEFT in Sub-1B Mathematical Reasoning

🎯BM25 Academic

Alignment Defends LLMs from Property Inference Attacks

🌲LSM Trees Academic

Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization

🌲LSM Trees Academic

Auditing Training Data in Domain-adapted LLMs: LoRA-MINT

💬Natural Language Processing Academic

Parameter-Efficient Fine-Tuning with Learnable Rank

💬Natural Language Processing Academic

The Neutral Mask: How RLHF Provides Shallow Alignment while Leaving Partisan Structure Intact in a Large Language Model

📐Embeddings Academic

Emergence of Context Characteristics Sensitivity in Large Language Models

📐Embeddings Academic

RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training

🎲Procedural Generation Academic

RASFT: Rollout-Adaptive Supervised Fine-Tuning for Reasoning

🌲LSM Trees Academic

PEFT of SLM for Telecommunications Customer Support: A Comparative Study of LoRA Configurations with Energy Consumption Analysis

🧠Query Planners Academic

PriFT: Prior-Support Guided Supervised Fine-Tuning

⚙️Compilers Academic

Defending Against Malicious Finetuning by Scaling Train-time Adversarial Attacks

🔥Burn Academic

High-Dimensional Theory of LoRA Fine-Tuning in a Solvable Attention Model

👤Search Personalization Academic

Emergent alignment and the projectability of ethical personas

📰Content Curation Academic

Multilingual Sentiment Aware Text Summarization A Reinforcement Learning Approach for Consistency Maintenance

💬Natural Language Processing Academic

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

🎯Recommendation Algorithms Academic

Log in to enable infinite scrolling