vor einem Monat

Verstehen Sie, bevor Sie generieren: selbstgeführtes Training für autoregressive Bildgenerierung

Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

Abstract

Kürzliche Studien haben die Bedeutung hochwertiger visueller Darstellungen für die Bildgenerierung aufgezeigt und die Grenzen generativer Modelle im Bereich der Bildverstehens hervorgehoben. Da autoregressive Modelle ursprünglich für natürliche Sprache konzipiert wurden, stehen auch sie vor ähnlichen Herausforderungen. In dieser Arbeit präsentieren wir die erste systematische Untersuchung der Mechanismen, mit denen das Next-Token-Prediction-Paradigma auf den visuellen Bereich übertragen wird. Wir identifizieren drei zentrale Eigenschaften, die das Lernen hochwertiger visueller Semantik erschweren: lokale und bedingte Abhängigkeit, semantische Inkonsistenz zwischen Schritten sowie eine unzureichende räumliche Invarianz. Wir zeigen, dass diese Probleme effektiv durch die Einführung selbstüberwachter Ziele während des Trainings adressiert werden können, was zu einem neuartigen Trainingsframework, Self-guided Training for AutoRegressive models (ST-AR), führt. Ohne auf vortrainierte Repräsentationsmodelle zurückzugreifen, verbessert ST-AR signifikant die Fähigkeit autoregressiver Modelle zum Bildverstehen und führt zu einer höheren Generierungsqualität. Insbesondere erzielt ST-AR eine Verbesserung des FID um etwa 42 % bei LlamaGen-L und um 49 % bei LlamaGen-XL, wobei die gleiche Sampling-Strategie beibehalten wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Verstehen Sie, bevor Sie generieren: selbstgeführtes Training für autoregressive Bildgenerierung

Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

Abstract

KI mit KI entwickeln

Hyper Newsletters