COSMOS: Cross-Modality Selbstdestillierung für die Vorkenntnis von Vision und Sprache

Vision-Language-Modelle (VLMs), die mit einem kontrastiven Verlust trainiert wurden, haben in verschiedenen visuellen und sprachlichen Aufgaben erhebliche Fortschritte erzielt. Dennoch führt die globale Natur des kontrastiven Verlustes dazu, dass VLMs sich hauptsächlich auf Vordergrundobjekte konzentrieren und andere wichtige Informationen im Bild vernachlässigen, was ihre Effektivität in nachgelagerten Aufgaben einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir COSMOS vor: CrOSs-MOdality Self-distillation für die Vision-Sprache-Vorverarbeitung, die eine neuartige Text-Ausschnitt-Strategie und ein Cross-Attention-Modul in einen selbstüberwachten Lernrahmen integriert. Wir erstellen globale und lokale Ansichten von Bildern und Texten (d.h., multimodale Erweiterungen), die für die Selbstdestillierung in VLMs entscheidend sind. Darüber hinaus führen wir ein Cross-Attention-Modul ein, das es COSMOS ermöglicht, umfassende multimodale Repräsentationen zu lernen, die durch einen Cross-Modality-Self-Distillation-Verlust optimiert werden. COSMOS übertrifft konsistent frühere starke Baseline-Modelle bei verschiedenen zero-shot-nachgelagerten Aufgaben, darunter Retrieval, Klassifikation und semantische Segmentierung. Zudem übersteigt es CLIP-basierte Modelle, die auf größeren Datensätzen trainiert wurden, in visuellen Wahrnehmungs- und kontextuellen Verständnisaufgaben. Der Quellcode ist unter https://github.com/ExplainableML/cosmos verfügbar.