💸 Affordable LLMs - minezone · Scour

Karpathy's Micro LLM in JavaScript

github.com·20h·

Discuss: Hacker News

💬Prompt Engineering

# Beyond Round Robin: Building a Token-Aware Load Balancer for LLMs

dev.to·1d·

Discuss: DEV

💬Prompt Engineering

Find the right local LLM for your exact hardware

localclaw.io·4h·

Discuss: Hacker News

Breaking the Tractability Barrier: A Generic Low-Level Solver for NP-Hard Instances (N=63) on Commodity 64-Bit Silicon

zenodo.org·5h·

Discuss: r/programming

🚀Performance

Building a Production ML Inference Stack with KServe, vLLM, and Karmada

dev.to·8h·

Discuss: DEV

🧩LLM Integration

Building an Embedding API with Rust, Arm, and EmbeddingGemma on AWS Lambda

sobolev.substack.com·49m·

Discuss: Substack

📉Model Quantization

MiniMaxAI MiniMax-M2.5 has 230b parameters and 10b active parameters

openhands.dev·14h·

Discuss: r/LocalLLaMA

🚀Performance

Design Decision: Technical Debt in BillaBear

iain.rocks·10m·

Discuss: Hacker News, r/programming

🔧Code Refactoring Patterns

Ming-flash-omni-2.0: 100B MoE (6B active) omni-modal model - unified speech/SFX/music generation

huggingface.co·17h·

Discuss: r/LocalLLaMA

🔊Text-to-Speech

What’s Actually Making Your LLM Costs Skyrocket?

youtube.com·1d·

Discuss: DEV

💬Prompt Engineering

Leading Inference Providers Cut AI Costs by up to 10x With Open Source Models on NVIDIA Blackwell

blogs.nvidia.com·19h

Training A Small Language Model To Outperform Frontier Models On CRM-Arena

neurometric.substack.com·23h·

Discuss: Substack

AI Token Calculator - Count Tokens for GPT-5, Claude 4.5, Gemini 3 & More

aitoolskit.io·1d·

Discuss: DEV

💬Prompt Engineering

Programming languages

mothcodes.bearblog.dev·1h

harishsg993010/tiny-NPU: opensource NPU for LLM inference (this run gpt2)

github.com·16h·

Discuss: r/LocalLLaMA

💬Prompt Engineering

8 Standards for Shipping Production LLM Features

teotti.com·11h·

Discuss: Hacker News

💬Prompt Engineering

Ring-1T-2.5 released by inclusionAI

huggingface.co·19h·

Discuss: r/LocalLLaMA

🔊Text-to-Speech

AI Inference Needs A Mix-And-Match Memory Strategy

semiengineering.com·1d

📉Model Quantization

Generate type-safe API clients from OpenAPI

orval.dev·2d·

Discuss: DEV

Show HN: Fighting the War Against Expensive Reinforcement Learning

cadenza-landing-qtu7gbjwb-akshparekh123-3457s-projects.vercel.app·1d·

Discuss: Hacker News

🔄Autonomous Agents

Loading more...