Mehrzweig- und Multiskalen-Attention-Lernverfahren für feinkörnige visuelle Kategorisierung

Der ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ist in den letzten Jahren eine der einflussreichsten akademischen Wettbewerbe im Bereich der Computer Vision (CV). Die direkte Anwendung des jährlichen Siegers des ILSVRC auf Feinabstimmungsaufgaben der visuellen Kategorisierung (Fine-Grained Visual Categorization, FGVC) führt jedoch nicht zu überzeugenden Ergebnissen. Für FGVC-Aufgaben sind die geringen Unterschiede zwischen Klassen und die hohen innerhalb-Klassen-Variationen ein besonders herausforderndes Problem. Unser Aufmerksamkeitsobjektpositionsmodul (Attention Object Location Module, AOLM) kann die Position des Objekts vorhersagen, während das Aufmerksamkeitsparten-Vorschlagsmodul (Attention Part Proposal Module, APPM) informative Teilregionen vorschlägt, ohne dass Beschriftungen in Form von Bounding-Boxes oder Teilannotierungen erforderlich sind. Die resultierenden Objektbilder enthalten nicht nur nahezu die gesamte Struktur des Objekts, sondern auch detailliertere Informationen; die Teilbilder weisen unterschiedliche Skalen auf und enthalten feinere Merkmale, während die Rohbilder das vollständige Objekt enthalten. Diese drei Arten von Trainingsbildern werden durch unser mehrfach verzweigtes Netzwerk supervidiert. Dadurch verfügt unser mehrfach verzweigtes und mehrskaliges Lernnetzwerk (Multi-Branch and Multi-Scale Learning Network, MMAL-Net) über eine hervorragende Klassifikationsfähigkeit und Robustheit gegenüber Bildern unterschiedlicher Skalen. Unser Ansatz kann end-to-end trainiert werden und bietet gleichzeitig eine kurze Inferenzzeit. Umfassende Experimente zeigen, dass unser Verfahren auf den Datensätzen CUB-200-2011, FGVC-Aircraft und Stanford Cars Ergebnisse auf State-of-the-Art-Niveau erzielt. Der Quellcode wird unter https://github.com/ZF1044404254/MMAL-Net verfügbar sein.