vor 2 Monaten

Die Synthese des Unsichtbaren für die Zero-Shot-Objekterkennung

Nasir Hayat; Munawar Hayat; Shafin Rahman; Salman Khan; Syed Waqas Zamir; Fahad Shahbaz Khan

Abstract

Die bestehenden Ansätze für die zero-shot-Detektion projizieren visuelle Merkmale in das semantische Gebiet für gesehene Objekte und hoffen, dass während der Inferenz unbekannte Objekte auf ihre entsprechende Semantik abgebildet werden. Allerdings, da unbekannte Objekte während des Trainings nie visualisiert werden, ist das Detektionsmodell verzerrt zugunsten des gesehenen Inhalts, wodurch unbekannte Objekte als Hintergrund oder eine gesehene Klasse gekennzeichnet werden. In dieser Arbeit schlagen wir vor, visuelle Merkmale für unbekannte Klassen zu synthetisieren, sodass das Modell sowohl gesehene als auch unbekannte Objekte im visuellen Bereich lernt. Folglich wird die Hauptausforderung darin bestehen, wie man unbekannte Objekte ausschließlich mit Hilfe ihrer Klassensemantik genauer synthetisieren kann? Um dieses ehrgeizige Ziel zu erreichen, schlagen wir ein neues generatives Modell vor, das nicht nur die Merkmale auf Basis der Klassensemantik erzeugt, sondern sie auch diskriminativ trennt. Zudem stellen wir sicher, dass die synthetisierten Merkmale durch ein einheitliches Modell eine hohe Vielfalt aufweisen, die die innerklassischen Unterschiede und die variierende Lokalisationsgenauigkeit in den detektierten Begrenzungsboxen repräsentiert. Wir testen unseren Ansatz an drei Benchmarks für Objektendetektion: PASCAL VOC, MSCOCO und ILSVRC-Detektion unter sowohl konventionellen als auch verallgemeinerten Bedingungen und zeigen beeindruckende Verbesserungen gegenüber den Stand-of-the-Art-Methoden. Unser Code ist unter https://github.com/nasir6/zero_shot_detection verfügbar.