Offene Vokabular-Multi-Label-Klassifikation mit Dual-Modalen Decoder auf ausgerichteten visuellen und textuellen Merkmalen

Im Bereich der Computer Vision sind Mehrlabel-Klassifizierungen wichtige Aufgaben mit zahlreichen Anwendungen in der Praxis. Die Klassifikation von zuvor unbekannten Labels stellt jedoch weiterhin eine erhebliche Herausforderung dar. In dieser Arbeit schlagen wir einen neuen Algorithmus vor, den ausgerichteten Dual-Modus-Klassifizierer (Aligned Dual moDality ClaSsifier, ADDS). Dieser beinhaltet einen Dual-Modus-Dekoder (Dual-Modal decoder, DM-Dekoder) mit Ausrichtung zwischen visuellen und textuellen Merkmalen für offene Vokabular-Mehrlabel-Klassifizierungsaufgaben. Anschließend entwickeln wir eine einfache, aber dennoch effektive Methode namens Pyramid-Forwarding, um die Leistung bei Eingaben mit hohen Auflösungen zu verbessern. Darüber hinaus wird die selektive Sprachüberwachung angewendet, um die Modellleistung weiter zu steigern. Umfangreiche Experimente auf mehreren Standard-Benchmarks, einschließlich NUS-WIDE, ImageNet-1k, ImageNet-21k und MS-COCO, zeigen, dass unser Ansatz die bisherigen Methoden erheblich übertrifft und den aktuellen Stand der Technik in offenen Vokabular-Mehrlabel-Klassifizierungen sowie konventionellen Mehrlabel-Klassifizierungen bietet. Besonders erwähnenswert ist auch der extreme Fall der Einzel-zu-Mehrlabel-Klassifizierung, bei dem Modelle, die auf Einzel-Label-Datensätzen (ImageNet-1k, ImageNet-21k) trainiert wurden, auf Mehrlabel-Datensätzen (MS-COCO und NUS-WIDE) getestet werden.