HyperAIHyperAI

Command Palette

Search for a command to run...

Offene Vokabular-Multi-Label-Klassifikation mit Dual-Modalen Decoder auf ausgerichteten visuellen und textuellen Merkmalen

Shichao Xu; Yikang Li; Jenhao Hsiao; Chiuman Ho; Zhu Qi

Zusammenfassung

Im Bereich der Computer Vision sind Mehrlabel-Klassifizierungen wichtige Aufgaben mit zahlreichen Anwendungen in der Praxis. Die Klassifikation von zuvor unbekannten Labels stellt jedoch weiterhin eine erhebliche Herausforderung dar. In dieser Arbeit schlagen wir einen neuen Algorithmus vor, den ausgerichteten Dual-Modus-Klassifizierer (Aligned Dual moDality ClaSsifier, ADDS). Dieser beinhaltet einen Dual-Modus-Dekoder (Dual-Modal decoder, DM-Dekoder) mit Ausrichtung zwischen visuellen und textuellen Merkmalen für offene Vokabular-Mehrlabel-Klassifizierungsaufgaben. Anschließend entwickeln wir eine einfache, aber dennoch effektive Methode namens Pyramid-Forwarding, um die Leistung bei Eingaben mit hohen Auflösungen zu verbessern. Darüber hinaus wird die selektive Sprachüberwachung angewendet, um die Modellleistung weiter zu steigern. Umfangreiche Experimente auf mehreren Standard-Benchmarks, einschließlich NUS-WIDE, ImageNet-1k, ImageNet-21k und MS-COCO, zeigen, dass unser Ansatz die bisherigen Methoden erheblich übertrifft und den aktuellen Stand der Technik in offenen Vokabular-Mehrlabel-Klassifizierungen sowie konventionellen Mehrlabel-Klassifizierungen bietet. Besonders erwähnenswert ist auch der extreme Fall der Einzel-zu-Mehrlabel-Klassifizierung, bei dem Modelle, die auf Einzel-Label-Datensätzen (ImageNet-1k, ImageNet-21k) trainiert wurden, auf Mehrlabel-Datensätzen (MS-COCO und NUS-WIDE) getestet werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp