ML-Decoder: Skalierbar und vielseitig einsetzbarer Klassifikationskopf

In dieser Arbeit stellen wir den ML-Decoder vor, einen neuen, auf Aufmerksamkeit basierenden Klassifikationskopf. Der ML-Decoder prognostiziert die Existenz von Klassenlabels durch Abfragen und ermöglicht eine bessere Nutzung von räumlichen Daten im Vergleich zu globaler Durchschnittspooling. Durch die Neugestaltung der Decoder-Architektur und die Verwendung eines neuartigen Gruppen-Decodier-Schemas ist der ML-Decoder hoch effizient und kann gut auf Tausende von Klassen skaliert werden. Im Vergleich zum Einsatz eines größeren Backbones bietet der ML-Decoder konsistent eine bessere Geschwindigkeits-Akkuratesse-Handelsbilanz. Der ML-Decoder ist auch vielseitig – er kann als direkter Ersatz für verschiedene Klassifikationsköpfe verwendet werden und sich auf unbekannte Klassen verallgemeinern, wenn er mit Wortabfragen betrieben wird. Neue Abfrageverstärkungen verbessern seine Generalisierungsfähigkeit weiterhin. Mit dem ML-Decoder erreichen wir Stand-of-the-Art-Ergebnisse in mehreren Klassifizierungsaufgaben: bei MS-COCO Multi-Label erreichen wir 91,4 % mAP; bei NUS-WIDE Zero-Shot erreichen wir 31,1 % ZSL mAP; und bei ImageNet Single-Label erreichen wir mit einem einfachen ResNet50 Backbone ein neues Top-Ergebnis von 80,7 %, ohne zusätzliche Daten oder Distillation. Der öffentliche Code ist unter folgender URL verfügbar: https://github.com/Alibaba-MIIL/ML_Decoder