Kontrastives Lernen-basierte hybride Netzwerke für die Long-Tailed-Bildklassifikation

Das Lernen diskriminativer Bilddarstellungen spielt eine entscheidende Rolle bei der langen Schwanz-Bildklassifikation, da es das Lernen des Klassifizierers bei unbalancierten Daten erleichtert. Angesichts der vielversprechenden Leistung, die kontrastives Lernen in der letzten Zeit in der Darstellungslernung gezeigt hat, untersuchen wir in dieser Arbeit effektive überwachte kontrastive Lernstrategien und passen sie an, um durch unbalancierte Daten bessere Bilddarstellungen zu lernen und damit die Klassifikationsgenauigkeit zu steigern. Konkret schlagen wir eine neuartige hybride Netzwerkarchitektur vor, die aus einer überwachten kontrastiven Verlustfunktion zur Lernung von Bilddarstellungen und einer Kreuzentropie-Verlustfunktion zur Lernung von Klassifizierern besteht. Dabei wird das Lernen schrittweise von der Merkmalslernung zur Klassifizierungslernung übergeleitet, um die Idee zu veranschaulichen, dass bessere Merkmale zu besseren Klassifizierern führen. Wir untersuchen zwei Varianten des kontrastiven Verlustes für die Merkmalslernung, die sich in ihrer Form unterscheiden, jedoch eine gemeinsame Grundidee verfolgen: die Anziehung von Proben derselben Klasse im normalisierten Embedding-Raum und die Abstoßung von Proben unterschiedlicher Klassen. Eine davon ist die kürzlich vorgeschlagene überwachte kontrastive (SC) Verlustfunktion, die auf der aktuellen State-of-the-Art unsupervisierten kontrastiven Verlustfunktion basiert und positive Proben derselben Klasse integriert. Die andere ist eine prototypische überwachte kontrastive (PSC) Lernstrategie, die den hohen Speicherverbrauch bei der herkömmlichen SC-Verlustfunktion adressiert und daher unter begrenzten Speicherressourcen vielversprechendere Ergebnisse erzielt. Umfangreiche Experimente an drei langen Schwanz-Klassifikationsdatensätzen belegen den Vorteil der vorgeschlagenen, auf kontrastivem Lernen basierenden hybriden Netzwerke für die langen Schwanz-Klassifikation.