ELoPE: Feinabgestimmte visuelle Klassifikation mit effizienter Lokalisierung, Pooling und Embedding

Die Aufgabe der feinabgestuften visuellen Klassifikation (Fine-Grained Visual Classification, FGVC) befasst sich mit Klassifikationsproblemen, die eine geringe Varianz zwischen Klassen aufweisen, beispielsweise die Unterscheidung zwischen verschiedenen Vogelarten oder Automodellen. Moderne Ansätze behandeln dieses Problem typischerweise, indem sie eine komplexe Aufmerksamkeitsmechanik oder (Teil-) Lokalisierungsmethode in ein herkömmliches convolutionales Neuronales Netzwerk (CNN) integrieren. Auch in dieser Arbeit wird das Ziel verfolgt, die Leistung eines Backbone-CNN wie ResNet durch die Einbindung dreier effizienter und leichtgewichtiger Komponenten zu verbessern, die speziell für FGVC entwickelt wurden. Dies wird erreicht durch den Einsatz einer globalen k-max-Pooling-Operation, einer diskriminativen Embedding-Schicht, die durch Optimierung der Klassenmittelwerte trainiert wird, sowie eines effizienten Bounding-Box-Schätzers, der lediglich Klassenlabels zur Ausbildung benötigt. Das resultierende Modell erreicht neue Sollwert-Genauigkeiten auf den Datensätzen Stanford Cars und FGVC-Aircraft.