Speculative Decoding: Wie Multi-Token Prediction LLMs beschleunigt (opens in new tab)
Spekulative Decoding-Verfahren beschleunigen die Tokenvorhersage. Multi-Token Prediction nutzt schnelle kleine Modelle und trennt Vorhersage von Verifikation.
Read the original article