近Intel与AMD共同发布完整ACE CPU扩展规范不用独显也能跑AI (opens in new tab)

最近Intel与AMD共同发布完整ACE CPU扩展规范，这套面向AI运算的全新指令集落地x86架构，通过优化矩阵乘法实现更高能效与计算密度，大幅降低CPU本地运行AI模型的门槛。日常AI推理大多依靠GPU完成，但轻量化模型、低延迟任务或是无独显设备，更适合直接在CPU运行，但传统AVX10向量指令并非为矩阵运算打造，执行AI核心矩阵乘法时功耗高、效率偏低。ACE基于现有AVX10寄存器拓展，新增专用硬件单元处理矩阵计算，无需重新设计底层架构，厂商适配成本更低。官方数据显示，同等输入向量规模下，ACE计算密度是AVX10的16倍，单条指令可完成更多计算，减少指令调度开销，内存带宽利用率同步提升，同时功耗控制更出色，不过16倍计算密度不代表直接16倍提速，最终性能取决于两家处理器后续硬件设计。该指令集跨厂商通用，开发者仅需编写一套代码，就能适配Intel、AMD全系支持ACE的CPU，不用针对不同AVX版本做多套适配，PyTorch、TensorFlow等主流AI框架均可无缝兼容，数据格式覆盖 INT8、FP8、BF16等AI常用类型，还原生支持OCP MX块缩放格式，填补AVX...

Read the original article