🧠 CUDA Memory Management - miterion · Scour

BOute: Cost-Efficient LLM Serving with Heterogeneous LLMs and GPUs via Multi-Objective Bayesian Optimization

arxiv.org·16h

Bitsum. Real-time CPU Optimization and Automation

bitsum.com·23h

📊Profiling Tools

remote locks and distributed locks

tautik.me·1d

🌐Distributed Computing

Can you disable multithreaded calculations for avoidance logic?

forrestthewoods.com·10h·

Discuss: r/godot

⚡CUDA Programming Patterns

CXMT shifts 20 percent of DRAM capacity to HBM3, China’s AI strategy gets a memory upgrade

igorslab.de·16h

⚡Flash Attention

building cuda-gdb from sources

redplait.blogspot.com·4d·

Discuss: redplait.blogspot.com

⚡CUDA Programming Patterns

Edge AI in a DRAM shortage: Doing more with less

edn.com·11h

⚡Flash Attention

borodark/exmc: Probabilistic programming in BEAM

github.com·1d

⚡ONNX Runtime

How to connect Convex to RunPod for serverless GPU workloads

stack.convex.dev·2d

Cache-aware disaggregated inference for up to 40% faster long-context LLM serving

together.ai·1d·

Discuss: Hacker News, r/LocalLLaMA

📈Occupancy Optimization

How a ‘zombie’ chipmaker became Nvidia’s vital AI ally

ft.com

·1d

🎯GPU Kernels

OpenAI deploys Cerebras chips for 15x faster code generation in first major move beyond Nvidia

venturebeat.com·3h

Kaoru Pairs A Novel Parallel Readout Architecture via Software-Level Transistor Grouping

zenodo.org·2d·

Discuss: Hacker News

⚡CUDA Programming Patterns

Beyond Kuramoto Models: Associative Memory and Plastic Synapses in ML Ensembles

hackernoon.com·1d

📊Gradient Accumulation

Game Boy Advance Dev: Drawing Pixels

mattgreer.dev·2d·

Discuss: r/programming

Faster AI Training Unlocked With New System For Massive Language Models

quantumzeitgeist.com·3d

🎯Tensor Cores

Heterogeneous Processing: A Strategy for Augmenting Moore's Law (2006)

linuxjournal.com·4d·

Discuss: Hacker News

⚡CUDA Programming Patterns

Zero State Architecture deep dive

news.ycombinator.com·3h·

Discuss: Hacker News

🎯Tensor Cores

How to build a distributed queue in a single JSON file on object storage

turbopuffer.com·21h·

Discuss: Lobsters, Hacker News

🌐Distributed Computing

Area-Efficient In-Memory Computing for Mixture-of-Experts via Multiplexing and Caching

arxiv.org·16h

⚡Flash Attention

Loading more...