End-to-End-Lernen einer Fisher-Vector-Codierung für Teilmerkmale in der Feinabstimmung der Erkennung

Teilbasierte Ansätze zur feinkörnigen Klassifikation zeigen im Vergleich zu globalen Methoden keine erwartete Leistungssteigerung, obwohl sie explizit auf kleine, für die Unterscheidung sehr ähnlicher Klassen relevante Details fokussieren. Wir vermuten, dass teilbasierte Methoden unter einer fehlenden Repräsentation lokaler Merkmale leiden, die invariant gegenüber der Reihenfolge der Teile sind und eine variierende Anzahl sichtbarer Teile angemessen verarbeiten können. Die Reihenfolge der Teile ist künstlich und wird oft lediglich durch Ground-Truth-Anmerkungen vorgegeben, während Perspektivenwechsel und Verdeckungen dazu führen, dass Teile nicht sichtbar sind. Daher schlagen wir vor, eine Fisher-Vektor-Codierung von Teilmerkmalen in konvolutionelle Neuronale Netze zu integrieren. Die Parameter dieser Codierung werden gemeinsam mit denen des neuronalen Netzwerks durch einen Online-EM-Algorithmus geschätzt und sind präziser als die Schätzungen früherer Arbeiten. Unser Ansatz verbessert die Stand der Technik bei der Klassifikation dreier Vogelarten-Datensätze.