Linke von Rechte unterscheiden: Geometrie-bewusste semantische Korrespondenz identifizieren

Während vortrainierte, groß angelegte Visionssysteme erhebliches Potenzial für semantische Korrespondenz gezeigt haben, ringen ihre Merkmale oft damit, die Geometrie und Orientierung von Instanzen zu erfassen. Diese Arbeit identifiziert die Bedeutung der Berücksichtigung geometrischer Aspekte für semantische Korrespondenz und zeigt eine Einschränkung der Merkmale aktueller Grundmodelle unter einfacher Nachbearbeitung auf. Wir demonstrieren, dass die Einbeziehung dieser Informationen die Leistung der semantischen Korrespondenz in beiden Szenarien – zero-shot und überwacht – erheblich verbessern kann, wobei wir einfache aber effektive Lösungen anbieten. Zudem erstellen wir einen neuen anspruchsvollen Benchmark für semantische Korrespondenz, der auf einem bestehenden Datensatz zur Poseestimation von Tieren basiert, sowohl für das Vortraining als auch zur Validierung von Modellen. Unsere Methode erreicht auf dem anspruchsvollen SPair-71k-Datensatz einen [email protected] von 65,4 (zero-shot) und 85,6 (überwacht), was jeweils eine Verbesserung um 5,5 Prozentpunkte und 11,0 Prozentpunkte gegenüber dem aktuellen Stand der Technik darstellt. Unser Code und unsere Datensätze sind öffentlich verfügbar unter: https://telling-left-from-right.github.io/.