Untersuchung der Lokalisierung für selbstüberwachtes feinabgestimmtes kontrastives Lernen

Selbstüberwachtes kontrastives Lernen hat großes Potenzial beim Erlernen visueller Darstellungen gezeigt. Trotz seiner Erfolge bei verschiedenen Downstream-Aufgaben wie Bildklassifikation und Objekterkennung ist die selbstüberwachte Vortrainierung für feinkörnige Szenarien noch nicht ausreichend erforscht. Wir weisen darauf hin, dass gegenwärtige kontrastive Methoden dazu neigen, Hintergrund- und Vordergrundstrukturen zu memorieren, was ihre Fähigkeit zur Lokalisierung des Vordergrundobjekts einschränkt. Analysen deuten darauf hin, dass sowohl das Erlernen diskriminativer Texturinformationen als auch die Lokalisierung für die feinkörnige selbstüberwachte Vortrainierung gleichermaßen entscheidend sind. Auf der Grundlage unserer Erkenntnisse führen wir cross-view Saliency Alignment (CVSA) ein, einen kontrastiven Lernrahmen, der zunächst Aufnahmen durch Ausschneiden und Austauschen von Saliency-Regionen als neue Ansicht generiert und dann das Modell mittels einer cross-view Alignment-Verlustfunktion dazu anleitet, sich auf die Vordergrundobjekte zu konzentrieren. Umfangreiche Experimente an sowohl kleinen als auch großen feinkörnigen Klassifikationsbenchmarks zeigen, dass CVSA die Qualität der gelernten Darstellungen erheblich verbessert.