Was ist DFlash? Bis zu 6× schnellere LLM-Inferenz (2026)

Was wäre, wenn LLM-Inferenz nicht 2–3-mal schneller werden könnte, sondern bis zu 6-mal — ohne jeglichen Qualitätsverlust? Genau das verspricht DFlash, eine neue Methode aus dem Z Lab (veröffentlicht 2026), die Speculative Decoding mit Block-Diffusion kombiniert. In diesem Artikel erklären wir, wie DFlash funktioniert, warum es bestehende Methoden wie EAGLE-3 deutlich übertrifft — und warum wir es für den nächsten großen Sprung in der KI-Inferenz halten.

Was ist DFlash?

DFlash (Block Diffusion for Flash Speculative Decoding) ist eine neue, leichtgewichtige Methode zur drastischen Beschleunigung von Large Language Models. Entwickelt wurde sie von Jian Chen, Yesheng Liang und Zhijian Liu vom Z Lab und in einem arXiv-Paper (2602.06036, 2026) veröffentlicht.

Die Kernidee: Statt Tokens sequenziell Schritt für Schritt zu generieren, entwirft ein kleines Block-Diffusion-Modell einen ganzen Block von Tokens in einem einzigen parallelen Forward-Pass — konditioniert auf die internen Repräsentationen des großen Zielmodells. Das große Modell überprüft den Entwurf dann in einem Schritt und akzeptiert korrekte Tokens. Das Ergebnis: bis zu 6-fache lossless Beschleunigung auf Qwen3-8B — deutlich mehr als jede bisherige Methode.

Das Problem: Warum ist LLM-Inferenz so langsam?

Große Sprachmodelle generieren Text sequenziell: jedes Token hängt vom vorherigen ab. Das ist fundamental und kann durch mehr Hardware allein nicht gelöst werden. Speculative Decoding ist ein bewährter Ansatz, diesen Flaschenhals zu umgehen:

Ein kleines, schnelles Draft-Modell schlägt mehrere Token vor
Das große Zielmodell überprüft alle Vorschläge gleichzeitig in einem einzigen Forward-Pass
Korrekte Tokens werden akzeptiert, falsche verworfen
Da Verifikation parallel stattfindet, ist der Gesamtdurchsatz höher — bei identischer Ausgabequalität

Der Haken: Bisherige Draft-Modelle wie EAGLE-3 (aktueller State-of-the-Art) generieren ihre Vorschläge immer noch autoregressiv — also ebenfalls Schritt für Schritt. Das begrenzt den praktischen Speedup auf etwa 2–3×. Zudem ist EAGLE-3 auf eine einzige Transformer-Schicht beschränkt, weil mehr Tiefe die Latenz zu sehr erhöhen würde.

Die Lösung: Block-Diffusion als Drafter

DFlash löst dieses Problem elegant: Statt autoregressiv zu arbeiten, nutzt das Draft-Modell Block-Diffusion — ein Verfahren, das einen ganzen Block von Tokens gleichzeitig in einem einzigen Forward-Pass erzeugt. Das hat einen entscheidenden Vorteil:

Die Kosten eines Diffusion-Drafters sind weitgehend konstant, egal wie viele Tokens er produziert. Ein mehrschichtiges DFlash-Modell, das 16 Tokens entwirft, hat niedrigere Latenz als ein einschichtiger EAGLE-3-Drafter, der nur 8 Tokens erzeugt.

Das bedeutet: DFlash kann sich ein tieferes, ausdrucksstärkeres Modell leisten — und liefert damit hochwertigere Vorschläge — ohne den Geschwindigkeitsvorteil zu verlieren.

Wie DFlash technisch funktioniert

1. Feature Fusion: Das Zielmodell weiß es besser

Die entscheidende Erkenntnis hinter DFlash: Die versteckten Repräsentationen (Hidden States) eines großen autogressiven LLMs enthalten bereits implizit Informationen über mehrere zukünftige Tokens. Statt den Drafter also von Grund auf zu fragen, konditioniert DFlash das Draft-Modell auf diese wertvollen Informationen.

2. KV Injection: Jede Schicht profitiert

Ein kritischer Unterschied zu EAGLE-3: Während EAGLE-3 die Zielmodell-Features nur in die erste Schicht des Draft-Modells einspeist (und das Signal mit zunehmender Tiefe verwässert), injiziert DFlash die fusionierten Features in jede einzelne Schicht des Drafters über den KV-Cache. Das bedeutet: Mit wachsender Modelltiefe wächst auch die Akzeptanzrate — ein Eigenschaft, die EAGLE-3 grundsätzlich fehlt.

3. Paralleles Drafting: Ein Pass für den gesamten Block

Konditioniert auf den reichhaltigen Kontext aus dem Zielmodell, generiert der DFlash-Drafter den nächsten Block von Tokens (typischerweise 15–16 Tokens) in einem einzigen, nicht-kausalen Forward-Pass. Nicht-kausal bedeutet: Jeder Token im Entwurf kann auf alle anderen Tokens im Block achten — das ist konzeptionell anders als bei autogressiven Modellen.

Das Draft-Modell selbst ist leichtgewichtig: Es verwendet die Embedding-Schicht und den LM-Head des Zielmodells — nur die wenigen mittleren Transformer-Schichten werden neu trainiert. Das minimiert den Trainingsaufwand und die Modellgröße.

DFlash vs. EAGLE-3: Die Zahlen sprechen für sich

Alle Benchmarks wurden auf Qwen3-8B mit greedy decoding (Temperatur = 0) durchgeführt:

Benchmark	Baseline (kein Spec-Dec)	EAGLE-3 Speedup	DFlash Speedup
GSM8K	1×	2,13×	5,20×
MATH-500	1×	2,18×	6,17×
AIME 2024	1×	2,25×	5,91×
AIME 2025	1×	2,18×	5,85×
HumanEval	1×	2,48×	5,20×
MBPP	1×	2,27×	4,75×
LiveCodeBench	1×	2,24×	5,43×
MT-Bench	1×	1,90×	2,92×

dflash vs eagle3 speedup benchmark vergleich token pro sekunde — DFlash vs. EAGLE-3 Speedup auf Qwen3-8B: DFlash erreicht bis zu 6,17× — mehr als 2,5× mehr als EAGLE-3

DFlash liefert auf nahezu allen Benchmarks mehr als 2,5-mal höheren Speedup als EAGLE-3 — bei mathematischen Reasoning-Tasks sogar über 6×. Und das bei identischer Ausgabequalität, da die Verifikation durch das Zielmodell jeden Token garantiert.

Auch unter Sampling (Temperatur = 1) und mit aktiviertem Thinking-Modus (Reasoning-Modelle) bleibt DFlash stark: circa 4,5-fache Beschleunigung für Reasoning-Modelle wie Qwen3 im Extended-Thinking-Modus.

Welche Modelle unterstützt DFlash?

Z Lab stellt fertige DFlash-Draft-Modelle auf HuggingFace bereit — eine beeindruckend breite Palette:

Gemma 4 — gemma-4-26B-A4B-it, gemma-4-31B-it (Google)
Qwen3.6 — 27B und 35B-A3B (MoE, Alibaba)
Qwen3.5 — 4B, 9B, 27B, 35B-A3B, 122B-A10B
Qwen3-Coder — Next und 30B-A3B
Kimi K2.5 (Moonshot AI)
MiniMax M2.5 (Preview)
GPT-OSS — 20B und 120B (OpenAI Open-Source-Modelle)
Llama 3.1 8B (Meta)
In Kürze: DeepSeek V4 Flash/Pro, MiniMax M2.7

Auch Red Hat AI stellt bereits DFlash-Spekulatoren auf HuggingFace zur Verfügung (u.a. für Gemma 4 31B).

Unterstützte Backends

DFlash ist heute in alle wichtigen Inferenz-Frameworks integriert:

vLLM ab v0.20.1+ — native Core-DFlash-Unterstützung, produktionsreif
SGLang — Produktions-Serving, von Modal Labs mitentwickelt
Transformers (HuggingFace) — für schnelle Experimente (Qwen3, LLaMA)
MLX (Apple Silicon) — für lokale Tests auf M-Series-Macs

Schnellstart mit vLLM

DFlash lässt sich mit einem einzigen zusätzlichen Parameter aktivieren — der bestehende vLLM-Serve-Befehl wird lediglich um eine speculative-config erweitert:


1
2
3
4
5
6
7
8
vllm serve Qwen/Qwen3.5-27B \

  --speculative-config '{

    "method": "dflash",

    "model": "z-lab/Qwen3.5-27B-DFlash",

    "num_speculative_tokens": 15

  }' \

  --attention-backend flash_attn \

  --max-num-batched-tokens 32768

Die OpenAI-kompatible API bleibt vollständig identisch — keine Code-Änderungen in den Anwendungen notwendig.

Schnellstart mit SGLang


1
2
3
4
5
6
7
8
9
10
python -m sglang.launch_server \

  --model-path Qwen/Qwen3.5-35B-A3B \

  --speculative-algorithm DFLASH \

  --speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash \

  --speculative-num-draft-tokens 16 \

  --tp-size 1 \

  --attention-backend trtllm_mha \

  --speculative-draft-attention-backend fa4 \

  --mem-fraction-static 0.75 \

  --trust-remote-code

Warum DFlash der nächste große Sprung ist

DFlash verändert die Grundannahmen der KI-Inferenz in mehrfacher Hinsicht:

Lossless: Die Verifikation durch das Zielmodell garantiert, dass die Ausgabequalität exakt identisch zum nicht-beschleunigten Betrieb ist — kein Trade-off wie bei Quantisierung
Drop-in: Bestehende vLLM- und SGLang-Deployments erfordern nur minimale Konfigurationsänderungen
Skalierbar: Je tiefer das Draft-Modell, desto besser — ohne Latenz-Penalty
Kompatibel: DFlash lässt sich mit Quantisierung (FP8, AWQ) kombinieren für maximale Effizienz
Universell: Funktioniert für Sprachgenerierung, Code, Mathematik und Reasoning-Modelle

Konkret bedeutet das: Ein Deployment mit vLLM oder SGLang, das heute 100 Anfragen pro Minute verarbeitet, kann mit DFlash — bei gleicher Hardware — potenziell 400–600 Anfragen pro Minute bewältigen. Für Betreiber eigener KI-Infrastruktur ist das ein massiver Hebel.

DFlash in Bitenos Infrastruktur

Wir beobachten DFlash sehr genau und testen es auf unserer Nvidia-Dynamo-basierten KI-Infrastruktur. Besonders interessant für uns: Für Modelle wie Qwen3.6-35B-A3B und Gemma 4, die wir bereits im Einsatz haben, existieren bereits fertige DFlash-Draft-Modelle. Die Integration in unser LiteLLM-gestütztes API-Gateway ist dadurch nahezu transparent für die nachgelagerten Anwendungen.

Wenn Sie mehr darüber erfahren möchten, wie Sie DFlash in Ihrer eigenen KI-Infrastruktur einsetzen können — oder wenn Sie Unterstützung beim Aufbau einer produktiven LLM-Infrastruktur suchen: Sprechen Sie uns an.

Fazit: Speculative Decoding hat gerade einen Quantensprung gemacht

DFlash ist mehr als eine Optimierung — es ist ein Paradigmenwechsel. Die Erkenntnis, dass Diffusion-Modelle als hocheffiziente Drafter eingesetzt werden können, die vom Wissen des Zielmodells profitieren, öffnet einen völlig neuen Designraum für Inferenz-Architekturen.

Wenn sich die Ergebnisse in der Breite bestätigen — und die bisherigen Benchmarks sind sehr überzeugend — wird DFlash in den nächsten Monaten zu einem Standard-Baustein jedes produktiven LLM-Deployments werden, ähnlich wie PagedAttention oder Flash Attention heute.

Wer jetzt schon vLLM v0.20.1+ oder SGLang einsetzt, kann DFlash mit einer Zeile Konfiguration aktivieren. Es gibt keinen Grund, damit zu warten.

KI Agenten bauen & einsetzen: Der praktische Leitfaden (2026)

Künstliche Intelligenz

KI Agenten bauen & einsetzen: Der praktische Leitfaden (2026)

KI-Agenten bauen ist der nächste logische Schritt, nachdem Sie verstanden haben, was KI-Agenten sind und welche Use-Cases sich für Ihr Unternehmen eignen. In diesem praktischen Leitfaden zeigen wir Ihnen Schritt für Schritt, wie Sie KI-Agenten von der Idee bis zur...

8. Mai 2026

vLLM vs. Ollama: Wann welches LLM-Framework? (2026)

Künstliche Intelligenz

vLLM vs. Ollama: Wann welches LLM-Framework? (2026)

„Ollama oder vLLM?“ – diese Frage hören wir in fast jedem Kundengespräch zum Thema LLM-Selbsthosting. Beide Frameworks sind Open Source, beide laufen lokal auf eigener Hardware – aber sie sind für völlig unterschiedliche Szenarien gemacht. Wer in der vllm vs...

8. Mai 2026

Was ist SGLang? Das LLM-Inferenz-Framework im Vergleich zu vLLM (2026)

Künstliche Intelligenz

Was ist SGLang? Das LLM-Inferenz-Framework im Vergleich zu vLLM (2026)

SGLang ist ein hochperformantes Open-Source-Framework für LLM-Inferenz mit RadixAttention, 29% mehr Durchsatz als vLLM und Unterstützung für NVIDIA, AMD und TPUs. Alles was Sie wissen müssen.

8. Mai 2026

Was ist DFlash? Block Diffusion für bis zu 6× schnellere LLM-Inferenz (2026)

Was ist DFlash?

Das Problem: Warum ist LLM-Inferenz so langsam?

Die Lösung: Block-Diffusion als Drafter

Wie DFlash technisch funktioniert

1. Feature Fusion: Das Zielmodell weiß es besser

2. KV Injection: Jede Schicht profitiert

3. Paralleles Drafting: Ein Pass für den gesamten Block

DFlash vs. EAGLE-3: Die Zahlen sprechen für sich

Welche Modelle unterstützt DFlash?

Unterstützte Backends

Schnellstart mit vLLM

Schnellstart mit SGLang

Warum DFlash der nächste große Sprung ist

DFlash in Bitenos Infrastruktur

Fazit: Speculative Decoding hat gerade einen Quantensprung gemacht

KI Agenten bauen & einsetzen: Der praktische Leitfaden (2026)

vLLM vs. Ollama: Wann welches LLM-Framework? (2026)

Was ist SGLang? Das LLM-Inferenz-Framework im Vergleich zu vLLM (2026)

Open Source KI: Die besten Modelle und Tools für Unternehmen (2026)

Über die Biteno GmbH

Auszeichnungen

360° IT Service

Standort Stuttgart