使用 LiteRT-LM 实现超快速的端侧 GenAI (opens in new tab)
📌 One-Sentence Summary LiteRT-LM 是 Google 用于在端侧部署 Gemma 4 的跨平台运行时,通过 GPU/NPU 加速、多 Token 预测和高级会话管理,提供了业界领先的性能。 📝 Summary 这篇来自 Google Developers Blog 的文章介绍了 LiteRT-LM,这是一个用于在边缘设备上部署 Gemma 4 模型的高性能运行时。文章详细阐述了其底层的 Google AI Edge 技术栈,该技术栈利用 LiteRT(原 TensorFlow Lite)进行推理,并使用 XNNPACK/MLDrift 内核进行加速。关键性能特性包括:在 Web 端(WebGPU)上 GPU 加速的解码速度高达 76 tokens/sec,在 iOS 端(Metal)上达到 56 tokens/sec。一个主要亮点是对多 Token 预测(MTP)的原生支持,它通过使用推测解码架构实现了高达 2.2 倍的加速。该运行时还提供了用于长上下文交互的高级会话管理、高效的内存利用(例如,在 Apple CPU 上以 607MB 的物理内存占用...
Read the original article