HyperAIHyperAI
vor 11 Tagen

Kombination von Metric Learning und Attention Heads für eine genaue und effiziente Multilabel-Bildklassifikation

Kirill Prokofiev, Vladislav Sovrasov
Kombination von Metric Learning und Attention Heads für eine genaue und effiziente Multilabel-Bildklassifikation
Abstract

Die mehrfach-label-basierte Bildklassifikation ermöglicht die Vorhersage eines Satzes von Labels aus einem gegebenen Bild. Im Gegensatz zur mehrklassigen Klassifikation, bei der jeweils nur ein Label pro Bild zugewiesen wird, ist dieser Ansatz für eine breitere Palette von Anwendungen geeignet. In dieser Arbeit untersuchen wir zwei gängige Ansätze für die mehrfach-label-basierte Klassifikation erneut: Transformer-basierte Head-Architekturen und Verarbeitungszweige, die Beziehungen zwischen Labels mittels Graphenmodellierung nutzen. Obwohl Transformer-basierte Head-Architekturen allgemein als überlegen gegenüber graphbasierten Ansätzen gelten, argumentieren wir, dass mit einer geeigneten Trainingsstrategie graphbasierte Methoden nur eine geringe Genauigkeitsreduktion aufweisen können, gleichzeitig aber deutlich weniger Rechenressourcen für die Inferenz benötigen. In unserer Trainingsstrategie ersetzen wir statt der üblichen Asymmetrischen Verlustfunktion (Asymmetric Loss, ASL), die als Standard für mehrfach-label-basierte Klassifikation gilt, eine modifizierte Variante auf Basis von Metrik-Lernen. Bei jedem binären Klassifikations-Unterproblem arbeitet sie mit $L_2$-normalisierten Merkvektoren aus einem Hauptnetzwerk und maximiert die Winkel zwischen den normalisierten Darstellungen positiver und negativer Beispiele. Dadurch wird eine bessere Trennfähigkeit erreicht als bei der klassischen binären Kreuzentropie, die mit nicht-normalisierten Merkvektoren arbeitet. Mit dem vorgeschlagenen Verlustfunktion und der Trainingsstrategie erzielen wir SOTA-Ergebnisse unter den Einmodus-Methoden auf etablierten Benchmarks für mehrfach-label-basierte Klassifikation wie MS-COCO, PASCAL-VOC, NUS-Wide und Visual Genome 500. Der Quellcode unserer Methode ist Teil der OpenVINO Training Extensions verfügbar: https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel

Kombination von Metric Learning und Attention Heads für eine genaue und effiziente Multilabel-Bildklassifikation | Neueste Forschungsarbeiten | HyperAI