Feinabgestimmte visuelle Klassifikation mit effizienter end-to-end Lokalisierung

Der Begriff feinkörnige visuelle Klassifikation (fine-grained visual classification, FGVC) bezeichnet Klassifikationsaufgaben, bei denen die Klassen sehr ähnlich sind und das Klassifikationsmodell in der Lage sein muss, subtile Unterschiede zu erkennen, um eine korrekte Vorhersage zu treffen. Moderne Ansätze beinhalten häufig einen Lokalisierungsschritt, der dem Klassifikationsnetzwerk hilft, indem relevante Teile der Eingabebilder lokalisiert werden. Dies erfordert jedoch meist mehrere Iterationen oder Durchläufe durch ein vollständiges Klassifikationsnetzwerk oder komplizierte Trainingsstrategien. In dieser Arbeit präsentieren wir ein effizientes Lokalisierungsmodul, das nahtlos in ein Klassifikationsnetzwerk in einer end-to-end-Architektur integriert werden kann. Auf der einen Seite wird das Modul durch den von der Klassifikationsschicht zurückfließenden Gradienten trainiert. Auf der anderen Seite werden zwei selbstüberwachte Verlustfunktionen eingeführt, um die Genauigkeit der Lokalisierung zu verbessern. Wir evaluieren das neue Modell anhand der drei Benchmark-Datensätze CUB200-2011, Stanford Cars und FGVC-Aircraft und erreichen dabei konkurrenzfähige Erkennungsergebnisse.