vor 11 Tagen

Skalierbare Bild-Tokenisierung mit Index-Backpropagation-Quantisierung

Fengyuan Shi, Zhuoyan Luo, Yixiao Ge, Yujiu Yang, Ying Shan, Limin Wang

Abstract

Bekannte Vektorquantisierungs-(VQ-)Methoden leiden unter Skalierbarkeitseinschränkungen, was hauptsächlich auf die Instabilität des Codebuchs zurückzuführen ist, das während des Trainings nur partiell aktualisiert wird. Das Codebuch neigt dazu, zu kollabieren, wenn die Nutzung abnimmt, da sich der Verteilungsabstand zwischen nicht aktivierten Codes und visuellen Merkmalen kontinuierlich vergrößert. Um dieses Problem zu lösen, stellen wir Index-Backpropagation-Quantisierung (IBQ) vor, eine neue VQ-Methode zur gemeinsamen Optimierung aller Codebuch-Embeddings und des visuellen Encoders. Durch die Anwendung eines Straight-Through-Schätzers auf die One-Hot-Kategorialverteilung zwischen dem kodierten Merkmal und dem Codebuch werden alle Codes differenzierbar und behalten einen konsistenten latenten Raum im Einklang mit dem visuellen Encoder. IBQ ermöglicht eine skalierbare Schulung von visuellen Tokenisierern und erreicht erstmals ein großes Codebuch ($2^{18}$) mit hoher Dimension ($256$) und hoher Nutzung. Experimente auf dem Standard-ImageNet-Benchmark belegen die Skalierbarkeit und Überlegenheit von IBQ und erzielen wettbewerbsfähige Ergebnisse bei der Rekonstruktion sowie bei der autoregressiven visuellen Generierung. Der Quellcode und die Modelle sind unter https://github.com/TencentARC/SEED-Voken verfügbar.