HyperAIHyperAI
vor 13 Tagen

Open-MAGVIT2: Ein Open-Source-Projekt zur Demokratisierung der autoregressiven visuellen Generierung

Zhuoyan Luo, Fengyuan Shi, Yixiao Ge, Yujiu Yang, Limin Wang, Ying Shan
Open-MAGVIT2: Ein Open-Source-Projekt zur Demokratisierung der autoregressiven visuellen Generierung
Abstract

Wir präsentieren Open-MAGVIT2, eine Familie autoregressiver Bildgenerationsmodelle mit Größen zwischen 300 M und 1,5 Mrd. Parametern. Das Open-MAGVIT2-Projekt stellt eine Open-Source-Replikation des Tokenizers von Google’s MAGVIT-v2 bereit, eines Tokenizers mit einem extrem großen Codebuch (d. h. 2¹⁸ Codes), und erreicht auf ImageNet in Auflösung 256 × 256 die bisher beste Rekonstruktionsleistung (1,17 rFID). Zudem untersuchen wir dessen Anwendung in herkömmlichen autoregressiven Modellen und validieren dessen Skalierbarkeitseigenschaften. Um autoregressive Modelle bei der Vorhersage mit einem extrem großen Vokabular zu unterstützen, faktorisieren wir das Vokabular asymmetrisch in zwei Teilvokabulare unterschiedlicher Größe und führen zudem die „Vorhersage des nächsten Teiltokens“ ein, um die Interaktion zwischen Teiltokens zu verstärken und die Generationsqualität zu verbessern. Alle Modelle und den zugehörigen Quellcode stellen wir öffentlich zur Verfügung, um Innovation und Kreativität im Bereich der autoregressiven visuellen Generierung zu fördern.

Open-MAGVIT2: Ein Open-Source-Projekt zur Demokratisierung der autoregressiven visuellen Generierung | Neueste Forschungsarbeiten | HyperAI