DiffusionGemma : le nouveau modèle de Google écrit son texte d'un bloc, et 4 fois plus vite (opens in new tab)

Plus de 1 000 tokens par seconde sur une seule carte H100, l'accélérateur que Nvidia vend aux centres de données, et environ 700 sur une RTX 5090, sa carte gaming haut de gamme. C'est le débit que Google DeepMind annonce pour DiffusionGemma, son nouveau modèle d'IA ouvert, à peu près quatre fois ce que produisent les modèles Gemma classiques de taille comparable. Toute la différence se joue dans la façon de générer le texte. Les modèles de langage habituels sont autorégressifs : ils écrivent ...

Read the original article