Offene-Vokabular-Mehrlabel-Klassifikation durch Mehrmodalen Wissenstransfer

Reales Erkennungssysteme begegnen oft der Herausforderung unbekannter Klassenetiketten. Um solche unbekannten Etiketten zu identifizieren, konzentriert sich das mehrklassige Zero-Shot-Lernen (ML-ZSL) auf die Wissensübertragung durch ein vorab trainiertes textuelles Etiketteneinbettungsmodell (z.B. GloVe). Allerdings nutzen diese Methoden nur einmodales Wissen aus einem Sprachmodell und ignorieren dabei die reichhaltigen semantischen Informationen, die in Bild-Text-Paaren inhärent sind. Stattdessen haben kürzlich entwickelte offenvokabularbasierte (OV) Methoden es geschafft, diese Informationen von Bild-Text-Paaren im Objekterkennungsbereich zu nutzen und beeindruckende Ergebnisse erzielt. Inspiriert durch den Erfolg dieser OV-basierten Methoden, schlagen wir einen neuen offenvokabularen Rahmen vor, den Multi-Modal Knowledge Transfer (MKT), für das mehrklassige Klassifizierungsproblem.Speziell nutzt unsere Methode multimodales Wissen von Bild-Text-Paaren basierend auf einem visuellen und sprachlichen Vortrainingsmodell (VLP). Um die Fähigkeit des VLP-Modells zur Übereinstimmung von Bildern und Texten zu erleichtern, wird Wissensdestillierung eingesetzt, um die Konsistenz zwischen Bild- und Etiketteneinbettungen sicherzustellen. Zusätzlich wird das Prompt-Tuning verwendet, um die Etiketteneinbettungen weiter zu aktualisieren. Um eine effektive Mehrfacherkennung zu ermöglichen, wurde ein einfaches aber effektives Zwei-Ströme-Modul entwickelt, das sowohl lokale als auch globale Merkmale erfassen kann.Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode signifikant bessere Leistungen als state-of-the-art-Methoden auf öffentlichen Benchmark-Datensätzen erzielt. Der Quellcode ist unter https://github.com/sunanhe/MKT verfügbar.