🔢 Quantization of LLMs - pleto · Scour

On the Importance of a Multi-Scale Calibration for Quantization

arxiv.org·1d

🧠Large Language Models (LLMs)

Astro: Activation-guided Structured Regularization for Outlier-Robust LLM Post-Training Quantization

arxiv.org·1d

🧠Large Language Models (LLMs)

Automating Inference Optimizations with NVIDIA TensorRT LLM AutoDeploy

developer.nvidia.com·1d

⚙️AI Infrastructure Automation

Using Accelerated Computing to Live-Steer Scientific Experiments at Massive Research Facilities

developer.nvidia.com·23h

🔧Systems-level optimizations for LLM serving

Loading more...