HyperAIHyperAI

Command Palette

Search for a command to run...

Offene-Vokabular-Mehrlabel-Klassifikation durch Mehrmodalen Wissenstransfer

He Sunan ; Guo Taian ; Dai Tao ; Qiao Ruizhi ; Ren Bo ; Xia Shu-Tao

Zusammenfassung

Reales Erkennungssysteme begegnen oft der Herausforderung unbekannter Klassenetiketten. Um solche unbekannten Etiketten zu identifizieren, konzentriert sich das mehrklassige Zero-Shot-Lernen (ML-ZSL) auf die Wissensübertragung durch ein vorab trainiertes textuelles Etiketteneinbettungsmodell (z.B. GloVe). Allerdings nutzen diese Methoden nur einmodales Wissen aus einem Sprachmodell und ignorieren dabei die reichhaltigen semantischen Informationen, die in Bild-Text-Paaren inhärent sind. Stattdessen haben kürzlich entwickelte offenvokabularbasierte (OV) Methoden es geschafft, diese Informationen von Bild-Text-Paaren im Objekterkennungsbereich zu nutzen und beeindruckende Ergebnisse erzielt. Inspiriert durch den Erfolg dieser OV-basierten Methoden, schlagen wir einen neuen offenvokabularen Rahmen vor, den Multi-Modal Knowledge Transfer (MKT), für das mehrklassige Klassifizierungsproblem.Speziell nutzt unsere Methode multimodales Wissen von Bild-Text-Paaren basierend auf einem visuellen und sprachlichen Vortrainingsmodell (VLP). Um die Fähigkeit des VLP-Modells zur Übereinstimmung von Bildern und Texten zu erleichtern, wird Wissensdestillierung eingesetzt, um die Konsistenz zwischen Bild- und Etiketteneinbettungen sicherzustellen. Zusätzlich wird das Prompt-Tuning verwendet, um die Etiketteneinbettungen weiter zu aktualisieren. Um eine effektive Mehrfacherkennung zu ermöglichen, wurde ein einfaches aber effektives Zwei-Ströme-Modul entwickelt, das sowohl lokale als auch globale Merkmale erfassen kann.Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode signifikant bessere Leistungen als state-of-the-art-Methoden auf öffentlichen Benchmark-Datensätzen erzielt. Der Quellcode ist unter https://github.com/sunanhe/MKT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp