Was ist DFlash? Block Diffusion für bis zu 6× schnellere LLM-Inferenz (2026)
Was wäre, wenn LLM-Inferenz nicht 2–3-mal schneller werden könnte, sondern bis zu 6-mal — ohne jeglichen Qualitätsverlust? Genau das verspricht DFlash, eine neue Methode aus dem Z Lab (veröffentlicht 2026), die Speculative Decoding mit Block-Diffusion kombiniert. In diesem Artikel erklären...








