🤖 Transformers - micaleel · Scour

A handy llama-server launcher with easy model and configuration customisation

🤖AI Code

github.com··r/LocalLLaMA

Here's a llama.cpp CLI Command builder.

llamabuilding.com··r/LocalLLaMA

Less-relevant results

DiffusionGemma: 4x Faster Text Generation

🤖AI News Blog

blog.google··Hacker News, r/LocalLLaMA, r/singularity

local llm on laptop 780M GPU using llama + gemma 4 qat

🤖AI Blog

alper.bearblog.dev·

Qwen 3.6 27B AutoRound GGUF, need your feedback

huggingface.co··r/LocalLLaMA

1-bit and 1.58 bit LLM Benchmarking on Jetson Orin Nano Super | Bonsai LM

smolhub.com··r/LocalLLaMA

Can activation verbalizers surface an internal chain of thought?

lesswrong.com·

DiffusionGemma: The Developer Guide- Google Developers Blog

🤖AI Blog

developers.googleblog.com··r/LocalLLaMA

bigattichouse/packed-twin-inference: PTI achieves ~2× throughput using a single quantized model (Q5_K_M or better) by running 4 generation streams in one batched decode call. The GPU loads model weights once per step and produces 4 predictions simultaneously. KV cache overhead is ~0.8 GiB total for all 4 streams. No draft model. No quality loss

🤖AI Code

github.com··r/LocalLLaMA

Magenta RealTime 2: Open and Local Live Music Models

💬Natural Language Processing

magenta.withgoogle.com··Hacker News, Hacker News, r/LocalLLaMA

How to reduce capability degradation from off-model SFT

lesswrong.com·

MoQ GGUFs and GSQ: Low-Bit GGUFs Are About to Get Much Better

🤖AI News Blog

kaitchup.substack.com··r/LocalLLaMA

[PoC] server: support requantizing kv cache by wadealexc · Pull Request #24134 · ggml-org/llama.cpp

🤖AI Code

github.com··r/LocalLLaMA

OpenEnv is now owned by HF, Torch, Prime Intellect, Unsloth, Modal, Mercor, and more! Use it for training agents.

🤖AI Blog

huggingface.co··Hacker News, r/LocalLLaMA

Defeating Introspection Adapters (and Why Threat Models Matter)

lesswrong.com·

heterodoxin/graphkv: Graph-guided KV cache compression for memory-efficient LLM inference.

🤖AI Code

github.com··r/LocalLLaMA

How Far Apart Does a Model Think Its Tokens Are?

lesswrong.com·

nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16

🧠Deep Learning

huggingface.co··Hacker News, Hacker News, r/LocalLLaMA

Qwen3.6 + MTP: Calculated context size is smaller when I use `--spec-draft-type-* q4_0`. is this normal? · ggml-org llama.cpp · Discussion #24102

🤖AI Discussion Code

github.com··r/LocalLLaMA

Revisiting GSM-Symbolic: Do 2026 Frontier Models Still Fail at Confounded Grade School Math?

lesswrong.com·

Log in to enable infinite scrolling