MlTr: Multi-label Classification with Transformer

Die Aufgabe der mehrfach-label-basierten Bildklassifikation besteht darin, alle in einem Bild enthaltenen Objektlabels zu erkennen. Trotz jahrelanger Fortschritte bleiben kleine Objekte, ähnliche Objekte sowie Objekte mit hoher bedingter Wahrscheinlichkeit weiterhin die zentralen Herausforderungen für herkömmliche auf Convolutional Neural Networks (CNN) basierende Modelle, was auf die begrenzte Repräsentationskraft der Faltkerne zurückzuführen ist. Kürzlich vorgestellte Vision-Transformer-Netzwerke nutzen die Selbst-Attention-Mechanismen, um Merkmale auf Pixelgenauigkeit zu extrahieren, wodurch reichhaltigere lokale semantische Informationen erfasst werden können. Allerdings sind diese Ansätze unzureichend, um globale räumliche Abhängigkeiten effektiv zu erfassen. In diesem Artikel identifizieren wir drei entscheidende Probleme, mit denen CNN-basierte Methoden konfrontiert sind, und untersuchen die Möglichkeit, spezifische Transformer-Module einzusetzen, um diese zu lösen. Wir präsentieren eine neue Architektur namens Multi-label Transformer (MlTr), die auf Fensterpartitionierung, Aufmerksamkeit innerhalb von Fenstern und Kreuzfenster-Aufmerksamkeit basiert und insbesondere die Leistung bei mehrfach-label-basierten Bildklassifikationsaufgaben verbessert. Die vorgeschlagene MlTr erreicht state-of-the-art-Ergebnisse auf mehreren gängigen mehrfach-label-basierten Datensätzen, darunter MS-COCO, Pascal-VOC und NUS-WIDE, mit jeweils 88,5 %, 95,8 % und 65,5 % Genauigkeit. Der Quellcode wird in Kürze unter https://github.com/starmemda/MlTr/ verfügbar sein.