HyperAIHyperAI

Command Palette

Search for a command to run...

COSMOS: Cross-Modality Selbstdestillierung für die Vorkenntnis von Vision und Sprache

Sanghwan Kim Rui Xiao Mariana-Iuliana Georgescu Stephan Alaniz Zeynep Akata

Zusammenfassung

Vision-Language-Modelle (VLMs), die mit einem kontrastiven Verlust trainiert wurden, haben in verschiedenen visuellen und sprachlichen Aufgaben erhebliche Fortschritte erzielt. Dennoch führt die globale Natur des kontrastiven Verlustes dazu, dass VLMs sich hauptsächlich auf Vordergrundobjekte konzentrieren und andere wichtige Informationen im Bild vernachlässigen, was ihre Effektivität in nachgelagerten Aufgaben einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir COSMOS vor: CrOSs-MOdality Self-distillation für die Vision-Sprache-Vorverarbeitung, die eine neuartige Text-Ausschnitt-Strategie und ein Cross-Attention-Modul in einen selbstüberwachten Lernrahmen integriert. Wir erstellen globale und lokale Ansichten von Bildern und Texten (d.h., multimodale Erweiterungen), die für die Selbstdestillierung in VLMs entscheidend sind. Darüber hinaus führen wir ein Cross-Attention-Modul ein, das es COSMOS ermöglicht, umfassende multimodale Repräsentationen zu lernen, die durch einen Cross-Modality-Self-Distillation-Verlust optimiert werden. COSMOS übertrifft konsistent frühere starke Baseline-Modelle bei verschiedenen zero-shot-nachgelagerten Aufgaben, darunter Retrieval, Klassifikation und semantische Segmentierung. Zudem übersteigt es CLIP-basierte Modelle, die auf größeren Datensätzen trainiert wurden, in visuellen Wahrnehmungs- und kontextuellen Verständnisaufgaben. Der Quellcode ist unter https://github.com/ExplainableML/cosmos verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
COSMOS: Cross-Modality Selbstdestillierung für die Vorkenntnis von Vision und Sprache | Paper | HyperAI