HyperAIHyperAI

Command Palette

Search for a command to run...

Grundlagen für Alles: Emergierende Lokalisierungseigenschaften in Vision-Sprache-Transformern

Walid Bousselham Felix Petersen Vittorio Ferrari Hilde Kuehne

Zusammenfassung

Vision-Sprache-Grundmodelle haben in verschiedenen Zero-Shot-Szenarien, wie Bildretrieval, Klassifikation oder Captioning, bemerkenswerte Leistungen gezeigt. Bislang scheinen diese Modelle jedoch bei der Zero-Shot-Lokalisierung referenzieller Ausdrücke und Objekte in Bildern zurückzustehen, weshalb sie für diese Aufgabe bisher feinabgestimmt werden müssen. In diesem Artikel zeigen wir, dass vortrainierte Vision-Sprache-(VL-)Modelle ohne jegliche Feinabstimmung Zero-Shot-Open-Vocabulary-Objektllokalisierung ermöglichen. Um diese Fähigkeiten auszunutzen, schlagen wir ein Grounding-Everything-Modul (GEM) vor, das die Idee des Value-Value-Attention, wie sie von CLIPSurgery eingeführt wurde, auf einen Self-Self-Attention-Pfad verallgemeinert. Wir zeigen, dass das Konzept des Self-Self-Attention der Clusterbildung entspricht, wodurch Gruppen von Token, die von derselben Objektinstanz stammen, zueinander ähnlich werden, gleichzeitig jedoch die Ausrichtung zum Sprachraum erhalten bleibt. Um die Gruppenbildung weiter zu leiten, schlagen wir eine Reihe von Regularisierungen vor, die es dem Modell ermöglichen, letztlich über Datensätze und Architekturen hinweg zu generalisieren. Wir evaluieren den vorgeschlagenen GEM-Framework an verschiedenen Benchmark-Aufgaben und -Datensätzen für semantische Segmentierung. Die Ergebnisse zeigen, dass GEM nicht nur andere training-free Open-Vocabulary-Lokalisierungsmethoden übertrifft, sondern auch state-of-the-art-Ergebnisse auf dem kürzlich vorgestellten OpenImagesV7-Benchmark für großskalige Segmentierung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Grundlagen für Alles: Emergierende Lokalisierungseigenschaften in Vision-Sprache-Transformern | Paper | HyperAI