浏览器通过WebGPU上做AI推理 (opens in new tab)
先说结论,在2026Q2这个时间点,通过浏览器webgpu 做 AI 不值得。 本来看官方demo跑得好好的,自己搓下来也觉得没啥,就一个小问题,fp32的模型有点大,最好换 q8 的。 q8的不能在 webgpu上跑,wasm也凑合用。原因是缺少一些矩阵乘法算子。开源库嘛,也理解。只是速度就慢了一点。 本来前几个月就这样平安无事,结果 transformers.js 升级到 v4,支持 q8 跑webgpu了,甚至 q4 q2 bitnet 这种高级货都支持了。满心欢喜的切过去,结果 webgpu 跟 wasm 一样慢? 于是就不甘心了。一路折腾,发现这个不仅跟算子有关,还跟硬件有关。甚至老掉牙的硬件不支持 shader-f16 。简单的说其实 GPU 原生支持最好的就 IEEE 754 fp32,f16 i8 这种属于要么新一点的硬件才支持,要么就是靠各种算子在软件层奇技淫巧去模拟。 我甚至脑洞大开让AI去搓一个 q8 dequant 到 fp32 ,发现模型也是不好惹的,太多坑了。HF官方甚至也自己搞了一套 q8f16 q4f16,然而 HF 自己的 transformer...
Read the original article