HyperAIHyperAI
vor 18 Tagen

TransIFC: Invariant Cues-aware Feature Concentration Learning für effiziente feinkörnige Vogelbildklassifikation

{You-Fu Li, Zhaoli Zhang, Tingting Liu, Bochen Xie, Yongjian Deng, Cheng Zhang, Hai Liu}
Abstract

Die Feinabstufung der Vogelbildklassifikation (Fine-grained Bird Image Classification, FBIC) ist nicht nur für die Beobachtung und den Schutz gefährdeter Vogelarten von Bedeutung, sondern auch eine weit verbreitete Aufgabe in der Bildklassifikation innerhalb der Multimedia-Verarbeitung und des Computer Vision. Allerdings steht FBIC vor mehreren Herausforderungen, wie z. B. Vogelmauser, komplexen Hintergründen und beliebigen Vogelhaltungen. Um diesen Herausforderungen effektiv zu begegnen, präsentieren wir einen neuartigen, invarianten Hinweisen bewussten Feature-Konzentrations-Transformer (TransIFC), der in Vogelbildern invariante und zentrale Informationen lernt. Dazu werden zwei neuartige Module vorgeschlagen, die die spezifischen Merkmale von Vogelbildern ausnutzen: das Hierarchiestufen-Feature-Aggregation-Modul (HSFA) und das Feature-in-Feature-Abstraktions-Modul (FFA). Das HSFA-Modul aggregiert die mehrskaligen Informationen von Vogelbildern durch die Verkettung von Merkmalskarten mehrerer Schichten. Das FFA-Modul extrahiert die invarianter Hinweise von Vögeln durch Merkmalsauswahl basierend auf Diskriminierungsscores. Als Backbone wird der Transformer eingesetzt, um semantische Abhängigkeiten über lange Distanzen in Vogelbildern aufzudecken. Zudem werden umfangreiche Visualisierungen bereitgestellt, um die Interpretierbarkeit der HSFA- und FFA-Module in TransIFC zu belegen. Umfassende Experimente zeigen, dass TransIFC auf dem CUB-200-2011-Datensatz (91,0 %) und dem NABirds-Datensatz (90,9 %) eine state-of-the-art-Leistung erzielt. Schließlich wurden erweiterte Experimente am Stanford Cars-Datensatz durchgeführt, um das Potenzial der Verallgemeinerbarkeit unserer Methode auf andere Aufgaben der feinkörnigen visuellen Klassifikation zu unterstreichen.

TransIFC: Invariant Cues-aware Feature Concentration Learning für effiziente feinkörnige Vogelbildklassifikation | Neueste Forschungsarbeiten | HyperAI