TLM：使用 LiteRT-LM 在边缘设备上运行微型 LLM 与智能体 (opens in new tab)

📌 One-Sentence Summary 谷歌边缘 AI 技术负责人 Cormac Brick 详细介绍了在边缘设备上运行微型 LLM (TLM) 和智能体的最新进展，重点关注新的 Gemma 4 模型、LiteRT-LM 运行时，以及结合了推理与函数调用的端侧「智能体技能」的出现。 📝 Summary 谷歌边缘 AI 技术负责人 Cormac Brick 全面概述了在边缘设备上部署小型语言模型和自主智能体。他解释了边缘 AI 的主要优势，包括低延迟、增强的隐私性、离线可用性和成本节约。演讲区分了两种主要的部署趋势：系统级 GenAI（集成到操作系统中的大模型，如安卓的 AI Core）和应用内 GenAI（为特定任务进行微调的更小的「微型 LLM」或 TLM）。演讲重点介绍了新发布的 Gemma 4 模型（E2B 和 E4B），这些模型通过内存映射嵌入等技术为内存受限的设备进行了优化。Brick 展示了从高端智能手机到树莓派等各种硬件的详细性能基准测试。最后，演讲引入了「智能体技能」的概念，这是由 Gemma 4 内置的推理和函数调用能力实现的新范式，允许模型直接在设备上执...

Read the original article