HyperAIHyperAI
vor 11 Tagen

Query2Label: Ein einfacher Transformer-Ansatz für die Mehrfach-Klassifikation

Shilong Liu, Lei Zhang, Xiao Yang, Hang Su, Jun Zhu
Query2Label: Ein einfacher Transformer-Ansatz für die Mehrfach-Klassifikation
Abstract

Diese Arbeit präsentiert einen einfachen und effektiven Ansatz zur Lösung des Multi-Label-Klassifikationsproblems. Der vorgeschlagene Ansatz nutzt Transformer-Decoder, um die Existenz einer Klassenbezeichnung abzufragen. Die Verwendung von Transformer basiert auf der Notwendigkeit, lokale, differenzierende Merkmale adaptiv für unterschiedliche Labels zu extrahieren, was aufgrund der Existenz mehrerer Objekte innerhalb eines Bildes eine stark gewünschte Eigenschaft darstellt. Das integrierte Cross-Attention-Modul im Transformer-Decoder bietet eine effektive Methode, um Label-Embeddings als Abfragen zu nutzen, um klassenbezogene Merkmale aus einer durch ein Vision-Backbone berechneten Merkmalskarte zu sondieren und zu aggregieren, um anschließend binäre Klassifikationen durchzuführen. Im Vergleich zu vorherigen Arbeiten ist der neue Rahmenwerk einfach gehalten – er verwendet standardisierte Transformer und Vision-Backbones – und gleichzeitig effektiv, da er auf fünf Multi-Label-Klassifikationsdatensätzen, darunter MS-COCO, PASCAL VOC, NUS-WIDE und Visual Genome, konsistent alle vorherigen Ansätze übertrifft. Insbesondere erreichen wir eine mAP von 91,3 % auf MS-COCO. Wir hoffen, dass die kompakte Struktur, die einfache Implementierung und die herausragende Leistung dieses Ansatzes als starker Baseline für Multi-Label-Klassifikationsaufgaben und zukünftige Studien dienen. Der Quellcode wird bald unter https://github.com/SlongLiu/query2labels verfügbar sein.

Query2Label: Ein einfacher Transformer-Ansatz für die Mehrfach-Klassifikation | Neueste Forschungsarbeiten | HyperAI