🧠 LLMs - nate_dkz · Scour

Alignment Collapse Under KV Cache Quantization: Diagnosis and Mitigation

🧠LLM Academic

Reachability and asymptotics of Gaussian Transformer dynamics

🧠LLM Academic

LLM-Based Code Documentation Generation and Multi-Judge Evaluation

🧠LLM Academic

The Order Matters: Sequential Fine-Tuning of LLaMA for Coherent Automated Essay Scoring

🧠LLM Academic

A retrieval conditioned rebinding circuit for dynamic entity tracking in large language models

🧠LLM Academic

RedKnot: Efficient Long-Context LLM Serving with Head-Aware KV Reuse and SegPagedAttention

🧠LLM Academic

YouZhi: Towards High-Concurrency Financial LLMs via Adaptive GQA-to-MLA Transition

🤖AI Tools Academic

Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving

💻Operating Systems Academic

arxiv.org··Hacker News

Minimizing the Hidden Cost of Scales: Graph-Guided Ultra-Low-Bit Quantization for Large Language Models

🧠LLM Academic

LLMCodec: Adapting Video Codecs for Efficient Weight Compression of Large Language Models

💬Natural Language Processing Academic

SigmaScale: LLM Compression with SVD-based Low-Rank Decomposition and Learned Scaling Matrices

🧠LLM Academic

Empirical Evaluation of Large Language Models for Migration of Code Fragments to Post-Quantum Cryptography

🧠LLM Academic

Log in to enable infinite scrolling