Grundlagen für Alles: Emergierende Lokalisierungseigenschaften in Vision-Sprache-Transformern

Vision-Sprache-Grundmodelle haben in verschiedenen Zero-Shot-Szenarien, wie Bildretrieval, Klassifikation oder Captioning, bemerkenswerte Leistungen gezeigt. Bislang scheinen diese Modelle jedoch bei der Zero-Shot-Lokalisierung referenzieller Ausdrücke und Objekte in Bildern zurückzustehen, weshalb sie für diese Aufgabe bisher feinabgestimmt werden müssen. In diesem Artikel zeigen wir, dass vortrainierte Vision-Sprache-(VL-)Modelle ohne jegliche Feinabstimmung Zero-Shot-Open-Vocabulary-Objektllokalisierung ermöglichen. Um diese Fähigkeiten auszunutzen, schlagen wir ein Grounding-Everything-Modul (GEM) vor, das die Idee des Value-Value-Attention, wie sie von CLIPSurgery eingeführt wurde, auf einen Self-Self-Attention-Pfad verallgemeinert. Wir zeigen, dass das Konzept des Self-Self-Attention der Clusterbildung entspricht, wodurch Gruppen von Token, die von derselben Objektinstanz stammen, zueinander ähnlich werden, gleichzeitig jedoch die Ausrichtung zum Sprachraum erhalten bleibt. Um die Gruppenbildung weiter zu leiten, schlagen wir eine Reihe von Regularisierungen vor, die es dem Modell ermöglichen, letztlich über Datensätze und Architekturen hinweg zu generalisieren. Wir evaluieren den vorgeschlagenen GEM-Framework an verschiedenen Benchmark-Aufgaben und -Datensätzen für semantische Segmentierung. Die Ergebnisse zeigen, dass GEM nicht nur andere training-free Open-Vocabulary-Lokalisierungsmethoden übertrifft, sondern auch state-of-the-art-Ergebnisse auf dem kürzlich vorgestellten OpenImagesV7-Benchmark für großskalige Segmentierung erzielt.