HyperAIHyperAI
vor 17 Tagen

Zufällige autoregressive visuelle Generierung

Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
Zufällige autoregressive visuelle Generierung
Abstract

Diese Arbeit stellt ein Randomized AutoRegressive-Modell (RAR) für die visuelle Generierung vor, das eine neue state-of-the-art-Leistung bei der Bildgenerierung erzielt, während es vollständig mit Sprachmodellierungs-Frameworks kompatibel bleibt. Das vorgeschlagene RAR ist einfach gehalten: Während eines standardmäßigen autoregressiven Trainingsprozesses mit einem Next-Token-Vorhersage-Ziel wird die Eingabesequenz – typischerweise in Raster-Reihenfolge angeordnet – mit einer Wahrscheinlichkeit r zufällig in verschiedene Faktorisierungsreihenfolgen umgeordnet, wobei r zu Beginn des Trainings den Wert 1 hat und über den Verlauf des Trainings linear auf 0 abnimmt. Diese annealing-basierte Trainingsstrategie ermöglicht es dem Modell, die erwartete Likelihood über alle möglichen Faktorisierungsreihenfolgen zu maximieren, wodurch die Fähigkeit des Modells zur Modellierung bidirektionaler Kontexte effektiv verbessert wird. Wichtig ist, dass RAR die Integrität des autoregressiven Modellierungsframeworks bewahrt und somit eine vollständige Kompatibilität mit Sprachmodellierung gewährleistet, während die Leistung bei der Bildgenerierung signifikant gesteigert wird. Auf der ImageNet-256-Benchmark-Instanz erreicht RAR eine FID-Score von 1,48, wodurch nicht nur vorherige state-of-the-art autoregressive Bildgeneratoren übertroffen werden, sondern auch führende Diffusions- und maskierte Transformer-basierte Methoden. Der Quellcode und die Modelle werden unter https://github.com/bytedance/1d-tokenizer veröffentlicht.