cnbeta.com.tw

近Intel与AMD共同发布完整ACE CPU扩展规范 不用独显也能跑AI (opens in new tab)

最近Intel与AMD共同发布完整ACE CPU扩展规范,这套面向AI运算的全新指令集落地x86架构,通过优化矩阵乘法实现更高能效与计算密度,大幅降低CPU本地运行AI模型的门槛。 日常AI推理大多依靠GPU完成,但轻量化模型、低延迟任务或是无独显设备,更适合直接在CPU运行,但传统AVX10向量指令并非为矩阵运算打造,执行AI核心矩阵乘法时功耗高、效率偏低。ACE基于现有AVX10寄存器拓展,新增专用硬件单元处理矩阵计算,无需重新设计底层架构,厂商适配成本更低。官方数据显示,同等输入向量规模下,ACE计算密度是AVX10的16倍,单条指令可完成更多计算,减少指令调度开销,内存带宽利用率同步提升,同时功耗控制更出色,不过16倍计算密度不代表直接16倍提速,最终性能取决于两家处理器后续硬件设计。该指令集跨厂商通用,开发者仅需编写一套代码,就能适配Intel、AMD全系支持ACE的CPU,不用针对不同AVX版本做多套适配,PyTorch、TensorFlow等主流AI框架均可无缝兼容,数据格式覆盖 INT8、FP8、BF16等AI常用类型,还原生支持OCP MX块缩放格式,填补AVX...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help