📊 Quantization - matmat · Scour

Pruned YOLOv8 ONNX INT8 Fails: 3 Fixes That Work

💻Local LLMs Blog Discussion

Joint Structural Pruning and Mixed-Precision Quantization for LLM Compression

💻Local LLMs Academic

Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency

💻Local LLMs News Blog

blog.google··Hacker News

The latest Gemma 4 models use a training trick to slash their on-device memory footprint

androidauthority.com·

Unsloth Gemma 4 QAT

Google DeepMind releases Gemma 4 QAT, but Unsloth developer Daniel Han warns naive llama.cpp conversions suffer accuracy loss

💻Local LLMs News

Google releases Gemma 4 QAT models for local AI on enterprise laptops

UniSVQ: 2-bit Unified Scalar-Vector Quantization

📊Vector Quantization Academic

Trainable Smooth-Rotation Transforms with Learned Channel Scales for LLM Quantization

💻Local LLMs Academic

Understanding Quantization-Aware Training: Gradients at Quantized Weights Bias to the Low-Loss Basin

💻Local LLMs Academic

LC-QAT: Data-Efficient 2-Bit QAT for LLMs via Linear-Constrained Vector Quantization

📊Vector Quantization Academic

Optimal Post-Training Quantization Scales and Where to Find Them

💻Local LLMs Academic

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

💻Local LLMs Academic

ScaleSweep: Accurate NVFP4 Post-Training Quantization of LLMs via Block Scale Initialization

💻Local LLMs Academic

On Low-Bit Quantization Errors in Speaker Verification: Diagnostic and Mitigation

💻Local LLMs Academic

Minimizing the Hidden Cost of Scales: Graph-Guided Ultra-Low-Bit Quantization for Large Language Models

💻Local LLMs Academic

STaR-Quant: State-Time Consistent Post-Training Quantization for Diffusion Large Language Models

💻Local LLMs Academic

LLMCodec: Adapting Video Codecs for Efficient Weight Compression of Large Language Models

💻Local LLMs Academic

QuBLAST: A Framework for Quantizing Large Language Models with Block-Level Compression Approach and Activation Scaling Strategy

💻Local LLMs Academic

MorphoQuant: Modality-Aware Quantization for Omni-modal Large Language Models

💻Local LLMs Academic

Log in to enable infinite scrolling