Perzeptuelle Gruppierung in kontrastiven Sehen-Sprache-Modellen

Neuere Fortschritte im Bereich der zero-shot-Bilderkennung deuten darauf hin, dass visuelle Sprachmodelle generische visuelle Repräsentationen mit einem hohen Grad an semantischer Information erlernen, die mit natürlichsprachlichen Phrasen beliebig abgefragt werden können. Das Verstehen eines Bildes geht jedoch nicht nur darum, welcher Inhalt sich in einem Bild befindet, sondern vor allem auch, wo dieser Inhalt sich befindet. In dieser Arbeit untersuchen wir, wie gut visuelle Sprachmodelle in der Lage sind, den Standort von Objekten innerhalb eines Bildes zu verstehen und visuell verwandte Teile des Bildes zusammenzufassen. Wir zeigen, wie moderne Modelle zur Lernrepräsentation von Vision und Sprache auf Grundlage kontrastiver Verlustfunktionen und großer webbasierter Daten begrenzte Informationen zur Objektlokalisation erfassen. Wir schlagen eine minimale Reihe von Änderungen vor, die zu Modellen führt, die sowohl semantische als auch räumliche Informationen einzigartig erlernen. Die Leistung dieser Modelle wird anhand der zero-shot-Bilderkennung, unüberwachten bottom-up- und top-down-semantischen Segmentierungen sowie Robustheitsanalysen gemessen. Wir stellen fest, dass das resultierende Modell hinsichtlich der unüberwachten Segmentierung Spitzenleistungen erzielt und demonstrieren, dass die gelernten Repräsentationen gegenüber zufälligen Korrelationen in Datensätzen, die darauf ausgelegt sind, das kausale Verhalten von Visionsmodellen zu untersuchen, einzigartig robust sind.