使用 LiteRT-LM 实现超快速的端侧 GenAI (opens in new tab)

📌 One-Sentence Summary LiteRT-LM 是 Google 用于在端侧部署 Gemma 4 的跨平台运行时，通过 GPU/NPU 加速、多 Token 预测和高级会话管理，提供了业界领先的性能。 📝 Summary 这篇来自 Google Developers Blog 的文章介绍了 LiteRT-LM，这是一个用于在边缘设备上部署 Gemma 4 模型的高性能运行时。文章详细阐述了其底层的 Google AI Edge 技术栈，该技术栈利用 LiteRT（原 TensorFlow Lite）进行推理，并使用 XNNPACK/MLDrift 内核进行加速。关键性能特性包括：在 Web 端（WebGPU）上 GPU 加速的解码速度高达 76 tokens/sec，在 iOS 端（Metal）上达到 56 tokens/sec。一个主要亮点是对多 Token 预测（MTP）的原生支持，它通过使用推测解码架构实现了高达 2.2 倍的加速。该运行时还提供了用于长上下文交互的高级会话管理、高效的内存利用（例如，在 Apple CPU 上以 607MB 的物理内存占用...

Read the original article