CoCa: Kontrastive Bild-Text-Grundmodelle

Die Erforschung von groß angelegten vortrainierten Grundmodellen ist in der Computer Vision von erheblichem Interesse, da diese Modelle schnell auf viele Downstream-Aufgaben übertragen werden können. Dieses Papier stellt den Kontrastiven Captioner (CoCa) vor, eine minimalistische Designstrategie, um einen Bild-Text Encoder-Decoder-Grundmodell gemeinsam mit einem kontrastiven Verlust und einem Captioning-Verlust zu trainieren. Dadurch werden die Fähigkeiten von kontrastiven Ansätzen wie CLIP und generativen Methoden wie SimVLM vereint. Im Gegensatz zu standardmäßigen Encoder-Decoder-Transformern, bei denen alle Decoder-Schichten auf die Encoder-Ausgänge achten, lässt CoCa in der ersten Hälfte der Decoder-Schichten die Kreuzaufmerksamkeit weg, um unimodale Textrepräsentationen zu kodieren. Die verbleibenden Decoder-Schichten sind dann in Kaskade angeordnet und achten kreuzweise auf den Bildencoder für multimodale Bild-Text-Repräsentationen. Wir wenden einen kontrastiven Verlust zwischen unimodalen Bild- und Texteinbettungen an, zusätzlich zu einem Captioning-Verlust auf den multimodalen Decoder-Ausgängen, die Texttoken autoregressiv vorhersagen. Durch das Teilen des gleichen Rechengraphen werden die beiden Trainingsziele effizient berechnet, wobei der zusätzliche Aufwand minimal ist. CoCa wird von Anfang bis Ende und aus dem Grundstoff sowohl auf webbasierten Alt-Text-Daten als auch auf annotierten Bildern trainiert, indem alle Labels einfach als Text behandelt werden, was die natürlichsprachliche Überwachung für das Lernen von Repräsentationen nahtlos vereint. Empirisch erreicht CoCa mit Zero-Shot-Transfer oder minimaler task-spezifischer Anpassung Spitzenleistungen in einer breiten Palette von Downstream-Aufgaben: visuelle Erkennung (ImageNet, Kinetics-400/600/700, Moments-in-Time), krossmodales Retrieval (MSCOCO, Flickr30K, MSR-VTT), multimodales Verständnis (VQA, SNLI-VE, NLVR2) und Bildbeschreibung (MSCOCO, NoCaps). Besonders bei der Klassifikation im ImageNet-Datensatz erreicht CoCa eine Zero-Shot Top-1 Genauigkeit von 86,3 %, 90,6 % mit einem gefrorenen Encoder und einem gelernten Klassifikationskopf sowie eine neue Spitzenleistung von 91,0 % Top-1 Genauigkeit im ImageNet-Datensatz mit einem feinjustierten Encoder.