
Ein KI-Modell auf dem eigenen Computer laufen zu lassen ist großartig – bis es das nicht mehr ist.
Das Versprechen ist Datenschutz, keine Abonnementgebühren und keine Daten, die Ihren Rechner verlassen. Die Realität für die meisten Menschen ist, dass der Cursor fünf Sekunden lang zwischen den Sätzen blinkt.
Dieser Engpass hat einen Namen: Inferenzgeschwindigkeit. Und er hat nichts damit zu tun, wie intelligent das Modell ist. Es ist ein Hardwareproblem. Standard-KI-Modelle generieren Text Wortfragment für Wortfragment – genannt Token – nacheinander. Die Hardware muss Milliarden von Parametern vom Speicher zu ihren Recheneinheiten transportieren, nur um jedes einzelne Token zu erzeugen. Es ist von Natur aus langsam. Auf Consumer-Hardware ist es schmerzhaft.
Der Ausweg, den die meisten Menschen wählen, ist das Ausführen kleinerer, schwächerer Modelle – oder stark komprimierter Versionen, sogenannte quantisierte Modelle, die etwas Qualität für Geschwindigkeit opfern. Keine der Lösungen ist ideal. Man bekommt etwas, das läuft, aber es ist nicht das Modell, das man eigentlich wollte.
Jetzt hat Google eine andere Idee. Das Unternehmen hat gerade Multi-Token Prediction (MTP) Drafter für seine offene Modellfamilie Gemma 4 veröffentlicht – eine Technik, die eine bis zu dreifache Beschleunigung liefern kann, ohne die Qualität oder die Denkfähigkeit des Modells überhaupt zu beeinträchtigen.
Der Ansatz wird spekulatives Decoding genannt und existiert als Konzept schon seit Jahren. Google-Forscher veröffentlichten das grundlegende Paper bereits 2022. Die Idee wurde erst jetzt populär, weil sie die richtige Architektur erforderte, um sie in großem Maßstab umzusetzen.
Hier ist die Kurzversion, wie es funktioniert. Anstatt das große, leistungsstarke Modell die ganze Arbeit allein machen zu lassen, paart man es mit einem winzigen "Drafter"-Modell. Der Drafter ist schnell und günstig – er sagt mehrere Tokens gleichzeitig in kürzerer Zeit voraus, als das Hauptmodell für die Erzeugung nur eines Tokens benötigen würde. Dann überprüft das große Modell all diese Vermutungen in einem einzigen Durchlauf. Wenn die Vermutungen richtig sind, erhält man die gesamte Sequenz zum Preis eines einzelnen Forward-Passes.
Laut Google, "wenn das Zielmodell dem Entwurf zustimmt, akzeptiert es die gesamte Sequenz in einem einzigen Forward-Pass – und generiert dabei sogar ein zusätzliches eigenes Token."
Nichts wird geopfert: Das große Modell – zum Beispiel die 31B dichte Version von Gemma 4 – verifiziert immer noch jedes Token, und die Ausgabequalität ist identisch. Man nutzt lediglich ungenutzte Rechenleistung aus, die während der langsamen Teile ungenutzt herumsaß.
Google sagt, dass die Drafter-Modelle den KV-Cache des Zielmodells teilen – eine Speicherstruktur, die bereits verarbeiteten Kontext speichert –, sodass sie keine Zeit damit verschwenden, Dinge neu zu berechnen, die das größere Modell bereits kennt. Für die kleineren Edge-Modelle, die für Telefone und Raspberry Pi-Geräte entwickelt wurden, hat das Team sogar eine effiziente Clustering-Technik entwickelt, um die Generationszeit weiter zu verkürzen.
Dies ist nicht der einzige Versuch, den die KI-Welt unternommen hat, um die Textgenerierung zu parallelisieren. Diffusionsbasierte Sprachmodelle – wie Mercury von Inception Labs – verfolgten einen völlig anderen Ansatz: Anstatt ein Token nach dem anderen vorherzusagen, beginnen sie mit Rauschen und verfeinern iterativ die gesamte Ausgabe. Das ist auf dem Papier schnell, aber Diffusions-LLMs haben Schwierigkeiten gehabt, die Qualität traditioneller Transformer-Modelle zu erreichen, wodurch sie eher eine Forschungskuriosität als ein praktisches Werkzeug blieben.
Spekulatives Decoding ist anders, weil es das zugrunde liegende Modell überhaupt nicht verändert. Es ist eine Serving-Optimierung, kein Architekturersatz. Das gleiche Gemma 4, das Sie bereits betrieben hätten, wird schneller.
Der praktische Nutzen ist real. Ein Gemma 4 26B Modell, das auf einer Nvidia RTX Pro 6000 Desktop-GPU läuft, erhält laut Googles eigenen Benchmarks mit aktiviertem MTP-Drafter etwa doppelt so viele Tokens pro Sekunde. Auf Apple Silicon ermöglichen Batchgrößen von 4 bis 8 Anfragen Beschleunigungen von etwa dem 2,2-fachen. Nicht ganz die dreifache Obergrenze in jedem Szenario, aber immer noch ein bedeutsamer Unterschied zwischen "kaum nutzbar" und "tatsächlich schnell genug, um damit zu arbeiten".
Der Kontext ist hier wichtig. Als das chinesische Modell DeepSeek im Januar 2025 den Markt schockierte – indem es an einem einzigen Tag 600 Milliarden Dollar von Nvidias Marktkapitalisierung löschte – war die Kernlektion, dass Effizienzgewinne stärker wirken können als reine Rechenleistung. Klügeres Arbeiten schlägt, mehr Hardware auf das Problem zu werfen. Googles MTP-Drafter ist ein weiterer Schritt in diese Richtung, jedoch direkt auf den Konsumentenmarkt ausgerichtet.
Die gesamte KI-Industrie ist derzeit ein Dreieck, das Inferenz, Training und Speicher berücksichtigt. Jeder Durchbruch in einem dieser Bereiche neigt dazu, das gesamte Ökosystem zu stärken oder zu schockieren. DeepSeeks Trainingsansatz (mächtige Modelle mit weniger leistungsfähiger Hardware zu erreichen) war ein Beispiel, während Googles TurboQuant-Paper (KI-Speicher schrumpfen, ohne Qualität zu verlieren) ein anderes war. Beide ließen die Märkte abstürzen, als Unternehmen versuchten herauszufinden, was zu tun sei.
Google sagt, dass der Drafter "verbesserte Reaktionsfähigkeit freischaltet: drastische Reduzierung der Latenz für nahezu Echtzeit-Chats, immersive Sprachapplikationen und agentische Workflows" – die Art von Aufgaben, die eine geringe Latenz erfordern, um überhaupt nützlich zu sein.
Anwendungsfälle werden schnell klar: Ein lokaler Code-Assistent, der nicht verzögert; eine Sprachschnittstelle, die antwortet, bevor man vergessen hat, was man gefragt hat; ein agentischer Workflow, der einen nicht drei Sekunden zwischen den Schritten warten lässt. All dies, auf Hardware, die man bereits besitzt.
Die MTP-Drafter sind ab sofort auf Hugging Face, Kaggle und Ollama unter der Apache 2.0 Lizenz verfügbar. Sie funktionieren sofort mit vLLM, MLX, SGLang und Hugging Face Transformers.