Jenseits des nächsten Tokens: Next-X-Vorhersage für autoregressive visuelle Generierung

Autoregressive (AR)-Modellierung, bekannt für ihr Paradigma der nächsten-Token-Vorhersage, bildet die Grundlage für moderne Sprach- und visuelle Generativmodelle. Traditionell wird ein „Token“ als die kleinste Vorhersageeinheit betrachtet, meist ein diskreter Symbol in der Sprache oder ein quantisierter Patch in der Vision. Die optimale Definition eines Tokens für zweidimensionale Bildstrukturen bleibt jedoch weiterhin eine offene Frage. Zudem leiden AR-Modelle unter der sogenannten Expositionsverzerrung (exposure bias), bei der die Verwendung von Teacher Forcing während des Trainings zu einer Akkumulation von Fehlern während der Inferenz führt. In diesem Paper stellen wir xAR vor, einen verallgemeinerten AR-Framework, das den Begriff des Tokens auf ein beliebiges Entitätselement X erweitert, das eine einzelne Patch-Entität, eine Zelle (eine k×k-Gruppierung benachbarter Patches), eine Subsample-Entität (eine nicht-lokale Gruppierung entfernter Patches), eine Skala (von grober zu feiner Auflösung) oder sogar ein vollständiges Bild darstellen kann. Zusätzlich reformulieren wir die diskrete Token-Klassifikation als kontinuierliche Entitätsregression und nutzen Flow-Matching-Methoden in jeder AR-Schritt. Dieser Ansatz bedingt das Training auf verrauschten Entitäten anstelle der wahren Tokens, was zu einer Methode namens Noisy Context Learning führt, die die Expositionsverzerrung effektiv verringert. Dadurch bietet xAR zwei zentrale Vorteile: (1) flexible Vorhersageeinheiten, die unterschiedliche Kontextgranularität und räumliche Strukturen erfassen können, und (2) eine Reduzierung der Expositionsverzerrung durch Verzicht auf Teacher Forcing. Auf dem Benchmark ImageNet-256 für Bildgenerierung erreicht unser Basismodell xAR-B (172 M Parameter) eine bessere Leistung als DiT-XL/SiT-XL (675 M Parameter), wobei die Inferenz 20-mal schneller erfolgt. Gleichzeitig erreicht xAR-H mit einem FID von 1,24 eine neue state-of-the-art-Leistung und läuft 2,2-mal schneller als das bisher beste Modell – ohne auf Vision-Foundation-Module (z. B. DINOv2) oder fortgeschrittene Sampling-Strategien für Leitintervalle zurückzugreifen.