Command Palette
Search for a command to run...
Verstehen Sie, bevor Sie generieren: selbstgeführtes Training für autoregressive Bildgenerierung
Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

Abstract
Kürzliche Studien haben die Bedeutung hochwertiger visueller Darstellungen für die Bildgenerierung aufgezeigt und die Grenzen generativer Modelle im Bereich der Bildverstehens hervorgehoben. Da autoregressive Modelle ursprünglich für natürliche Sprache konzipiert wurden, stehen auch sie vor ähnlichen Herausforderungen. In dieser Arbeit präsentieren wir die erste systematische Untersuchung der Mechanismen, mit denen das Next-Token-Prediction-Paradigma auf den visuellen Bereich übertragen wird. Wir identifizieren drei zentrale Eigenschaften, die das Lernen hochwertiger visueller Semantik erschweren: lokale und bedingte Abhängigkeit, semantische Inkonsistenz zwischen Schritten sowie eine unzureichende räumliche Invarianz. Wir zeigen, dass diese Probleme effektiv durch die Einführung selbstüberwachter Ziele während des Trainings adressiert werden können, was zu einem neuartigen Trainingsframework, Self-guided Training for AutoRegressive models (ST-AR), führt. Ohne auf vortrainierte Repräsentationsmodelle zurückzugreifen, verbessert ST-AR signifikant die Fähigkeit autoregressiver Modelle zum Bildverstehen und führt zu einer höheren Generierungsqualität. Insbesondere erzielt ST-AR eine Verbesserung des FID um etwa 42 % bei LlamaGen-L und um 49 % bei LlamaGen-XL, wobei die gleiche Sampling-Strategie beibehalten wird.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.