HyperAIHyperAI

Command Palette

Search for a command to run...

Skalierbare Bild-Tokenisierung mit Index-Backpropagation-Quantisierung

Fengyuan Shi Zhuoyan Luo Yixiao Ge Yujiu Yang Ying Shan Limin Wang

Zusammenfassung

Bekannte Vektorquantisierungs-(VQ-)Methoden leiden unter Skalierbarkeitseinschränkungen, was hauptsächlich auf die Instabilität des Codebuchs zurückzuführen ist, das während des Trainings nur partiell aktualisiert wird. Das Codebuch neigt dazu, zu kollabieren, wenn die Nutzung abnimmt, da sich der Verteilungsabstand zwischen nicht aktivierten Codes und visuellen Merkmalen kontinuierlich vergrößert. Um dieses Problem zu lösen, stellen wir Index-Backpropagation-Quantisierung (IBQ) vor, eine neue VQ-Methode zur gemeinsamen Optimierung aller Codebuch-Embeddings und des visuellen Encoders. Durch die Anwendung eines Straight-Through-Schätzers auf die One-Hot-Kategorialverteilung zwischen dem kodierten Merkmal und dem Codebuch werden alle Codes differenzierbar und behalten einen konsistenten latenten Raum im Einklang mit dem visuellen Encoder. IBQ ermöglicht eine skalierbare Schulung von visuellen Tokenisierern und erreicht erstmals ein großes Codebuch (2182^{18}218) mit hoher Dimension (256256256) und hoher Nutzung. Experimente auf dem Standard-ImageNet-Benchmark belegen die Skalierbarkeit und Überlegenheit von IBQ und erzielen wettbewerbsfähige Ergebnisse bei der Rekonstruktion sowie bei der autoregressiven visuellen Generierung. Der Quellcode und die Modelle sind unter https://github.com/TencentARC/SEED-Voken verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Skalierbare Bild-Tokenisierung mit Index-Backpropagation-Quantisierung | Paper | HyperAI