⚙️ ML Engineering - fyenne · Scour

harshuljain13/llm-inference-at-scale: A Practitioner handbook for production llm serving.

🤖ai Code

github.com··Hacker News

DeepSeekV4 1.6T Day 0 to Day 43 Performance Over Time - Huawei, GB300 NVL72, MI355X, B200

🤖ai News

newsletter.semianalysis.com

··Hacker News

UniSVQ: 2-bit Unified Scalar-Vector Quantization

🤖ai Academic

AMD's Lemonade SDK For Local AI Adds NVIDIA CUDA Support

🔓Open Source AI

2x GH200 for LLM inference, Part 2: vLLM, DeepSeek V4 Flash, and MTP

🔓Open Source AI Blog

dnhkng.github.io·

Exploiting GPU Tensor Cores from Java using Babylon

LLM Inference Engineering Room — Part 3: The Orchestration Layer

💬LLMs Blog

vimal-dwarampudi.medium.com·

Inferoa AI harness claimed 90% cache savings. We ran it and measured 97.8%

⚡Software Perf

zozo123.github.io··Hacker News

Exploiting GPU Tensor Cores from Java using Babylon [Juan Fumero]

⚡Software Perf

openjdk.org··r/java

The Inference Alpha: Maximizing Frontier Models on AMD

🔓Open Source AI Blog

digitalocean.com·

A system programmer’s guide to LLM inference

🔓Open Source AI Blog

blog.xiangpeng.systems··Hacker News

Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency

🔓Open Source AI News Blog

blog.google··Hacker News

DiffusionGemma: The Developer Guide- Google Developers Blog

🤖ai Blog

developers.googleblog.com··r/LocalLLaMA

NVIDIA Accelerates Google DeepMind’s DiffusionGemma for Local AI

🤖ai Blog

blogs.nvidia.com·

Framework Desktop AMD 395+ (rdna 3.5) cannot run confyui err Fix 2026

🤖ai Blog

runaihome.com··DEV

Re-quantizing a local LLM 14x faster by skipping the tensors that didn't change

🔓Open Source AI News Blog

andreaborio.substack.com··Substack

Running LLM Inference on Kubernetes: What It Actually Takes

🔓Open Source AI Blog

fairwinds.com·

Alignment Collapse Under KV Cache Quantization: Diagnosis and Mitigation

💬LLMs Academic

Qwen 3.6 27B AutoRound GGUF, need your feedback

🔓Open Source AI

huggingface.co··r/LocalLLaMA

TFLite Edge Model Quantizer Snippet

🔓Open Source AI

itsevilduck.gumroad.com··DEV

Log in to enable infinite scrolling