Command Palette
Search for a command to run...
Zur Eigenwertanalyse der globalen Kovarianzpooling für feinkörnige visuelle Erkennung
Zur Eigenwertanalyse der globalen Kovarianzpooling für feinkörnige visuelle Erkennung
Yue Song Nicu Sebe Wei Wang
Zusammenfassung
Die feinkörnige visuelle Kategorisierung (Fine-Grained Visual Categorization, FGVC) ist herausfordernd, da die subtilen Unterschiede zwischen Klassen schwer zu erfassen sind. Eine bedeutende Forschungslinie nutzt die Global Covariance Pooling (GCP)-Schicht, um leistungsfähige Darstellungen mittels zweiter Ordnungstatistiken zu lernen, die effektiv zwischen-Klassen-Unterschiede modellieren können. In unserer vorherigen Konferenzpublikation zeigten wir, dass das Abschneiden kleiner Eigenwerte der GCP-Kovarianz zu einer glatteren Gradientenabwicklung führt und die Leistung auf großen Benchmarks verbessert. Auf feinkörnigen Datensätzen führt jedoch das Abschneiden kleiner Eigenwerte dazu, dass das Modell nicht mehr konvergiert. Diese Beobachtung widerspricht der verbreiteten Annahme, dass kleine Eigenwerte lediglich Rausch- und unwichtige Informationen repräsentieren, deren Vernachlässigung kaum Einfluss auf die Leistung haben sollte. Um dieses ungewöhnliche Verhalten zu diagnostizieren, schlagen wir zwei Zuschreibungsmethoden vor, deren Visualisierungen belegen, dass die scheinbar unbedeutenden kleinen Eigenwerte entscheidend sind, da sie für die Extraktion diskriminativer, klassenspezifischer Merkmale verantwortlich sind. Inspiriert durch diese Erkenntnis, schlagen wir einen speziellen Netzwerkzweig vor, der die Bedeutung kleiner Eigenwerte verstärkt. Ohne zusätzliche Parameter zu einführen, verstärkt dieser Zweig einfach die kleinen Eigenwerte und erreicht state-of-the-art-Leistungen der GCP-Methoden auf drei feinkörnigen Benchmarks. Zudem ist die Leistung auch auf größeren Datensätzen mit anderen FGVC-Ansätzen konkurrenzfähig. Der Quellcode ist unter \href{https://github.com/KingJamesSong/DifferentiableSVD}{https://github.com/KingJamesSong/DifferentiableSVD} verfügbar.