Ein neuartiges Plug-in-Modul für feinkörnige visuelle Klassifikation

Die visuelle Klassifizierung lässt sich in grobkörnige und feinkörnige Klassifizierung unterteilen. Bei der grobkörnigen Klassifizierung werden Kategorien mit großem Unterschied zueinander betrachtet, beispielsweise die Unterscheidung zwischen Katzen und Hunden. Im Gegensatz dazu bezieht sich die feinkörnige Klassifizierung auf Kategorien mit hoher Ähnlichkeit, wie beispielsweise verschiedene Katzen- oder Vogelarten sowie Hersteller- oder Modellvarianten von Fahrzeugen. Im Gegensatz zur grobkörnigen visuellen Klassifizierung erfordert die feinkörnige Klassifizierung oft die Beteiligung fachkundiger Experten zur Datenannotation, was die Kosten für die Datenerfassung erheblich erhöht. Um dieser Herausforderung zu begegnen, haben zahlreiche Ansätze vorgeschlagen, automatisch die diskriminativsten Regionen innerhalb von Bildern zu identifizieren und lokale Merkmale zu nutzen, um präzisere Merkmalsdarstellungen zu generieren. Diese Ansätze benötigen lediglich bildbezogene Annotationen und senken so die Kosten der Annotation erheblich. Allerdings erfordern die meisten dieser Methoden zweistufige oder mehrstufige Architekturen und können nicht end-to-end trainiert werden. Daher stellen wir ein neuartiges Plug-in-Modul vor, das nahtlos in zahlreiche gängige Backbone-Netzwerke integriert werden kann, einschließlich sowohl CNN-basierter als auch Transformer-basierter Architekturen, um stark diskriminative Regionen zu liefern. Das Plug-in-Modul kann pixelgenaue Merkmalskarten ausgeben und gefilterte Merkmale fusionieren, um die Leistung der feinkörnigen visuellen Klassifizierung zu verbessern. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene Plug-in-Modul state-of-the-art-Methoden übertrifft und die Genauigkeit auf den Datensätzen CUB200-2011 und NABirds signifikant auf 92,77 % bzw. 92,83 % steigert. Der Quellcode wurde auf GitHub veröffentlicht unter: https://github.com/chou141253/FGVC-PIM.git.