Skalierung der Codebuchgröße von VQGAN auf 100.000 bei einer Ausnutzungsrate von 99%

Im Bereich der Bildquantisierung, exemplarisch vertreten durch VQGAN, wird ein Bild in diskrete Token codiert, die aus einem vordefinierten Codebook stammen. Neuere Fortschritte, insbesondere mit LLAMA 3, zeigen, dass eine Vergrößerung des Codebooks die Modellleistung erheblich verbessert. Dennoch stehen VQGAN und seine Abwandlungen, wie VQGAN-FC (Factorized Codes) und VQGAN-EMA, weiterhin vor Herausforderungen hinsichtlich der Erweiterung der Codebuchgröße und der Verbesserung der Codebuchauslastung. So ist VQGAN-FC beispielsweise auf ein maximales Codebuch von 16.384 Einträgen beschränkt und weist typischerweise eine Auslastung von weniger als 12 % auf ImageNet auf. In dieser Arbeit präsentieren wir ein neuartiges Bildquantisierungsmodell namens VQGAN-LC (Large Codebook), das die Codebuchgröße auf 100.000 erhöht und eine Auslastung von über 99 % erreicht. Im Gegensatz zu früheren Ansätzen, die jede Codebucheintragung einzeln optimieren, beginnen wir mit einem Codebook, das aus 100.000 Features besteht, die durch einen vortrainierten Vision-Encoder extrahiert wurden. Die Optimierung konzentriert sich dann darauf, einen Projektor zu trainieren, der das gesamte Codebook an die Merkmalsverteilung des Encoders im VQGAN-LC anpasst. Wir zeigen, dass unser Modell gegenüber seinen Vorgängern in einer Vielzahl von Aufgaben überlegene Leistung erzielt, darunter Bildrekonstruktion, Bildklassifikation, autoregressive Bildgenerierung mittels GPT sowie Bildgenerierung mit diffusion- und flow-basierten generativen Modellen. Quellcode und Modelle sind unter https://github.com/zh460045050/VQGAN-LC verfügbar.