HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Verstehen Sie, bevor Sie generieren: selbstgeführtes Training für autoregressive Bildgenerierung

Xiaoyu Yue Zidong Wang Yuqing Wang Wenlong Zhang Xihui Liu Wanli Ouyang Lei Bai Luping Zhou

Verstehen Sie, bevor Sie generieren: selbstgeführtes Training für autoregressive Bildgenerierung

Abstract

Kürzliche Studien haben die Bedeutung hochwertiger visueller Darstellungen für die Bildgenerierung aufgezeigt und die Grenzen generativer Modelle im Bereich der Bildverstehens hervorgehoben. Da autoregressive Modelle ursprünglich für natürliche Sprache konzipiert wurden, stehen auch sie vor ähnlichen Herausforderungen. In dieser Arbeit präsentieren wir die erste systematische Untersuchung der Mechanismen, mit denen das Next-Token-Prediction-Paradigma auf den visuellen Bereich übertragen wird. Wir identifizieren drei zentrale Eigenschaften, die das Lernen hochwertiger visueller Semantik erschweren: lokale und bedingte Abhängigkeit, semantische Inkonsistenz zwischen Schritten sowie eine unzureichende räumliche Invarianz. Wir zeigen, dass diese Probleme effektiv durch die Einführung selbstüberwachter Ziele während des Trainings adressiert werden können, was zu einem neuartigen Trainingsframework, Self-guided Training for AutoRegressive models (ST-AR), führt. Ohne auf vortrainierte Repräsentationsmodelle zurückzugreifen, verbessert ST-AR signifikant die Fähigkeit autoregressiver Modelle zum Bildverstehen und führt zu einer höheren Generierungsqualität. Insbesondere erzielt ST-AR eine Verbesserung des FID um etwa 42 % bei LlamaGen-L und um 49 % bei LlamaGen-XL, wobei die gleiche Sampling-Strategie beibehalten wird.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verstehen Sie, bevor Sie generieren: selbstgeführtes Training für autoregressive Bildgenerierung | Forschungsarbeiten | HyperAI