Hintergrund lernfähiges Kaskadenverfahren für die Null-Shot-Objekterkennung

Die Zero-Shot-Detektion (ZSD) ist für die großflächige Objekterkennung von entscheidender Bedeutung, wobei das Ziel darin besteht, unbekannte Objekte gleichzeitig zu lokalisieren und zu erkennen. Es bestehen jedoch noch mehrere Herausforderungen für ZSD, darunter die Verringerung der Unschärfen zwischen Hintergrund und unbekannten Objekten sowie die Verbesserung der Ausrichtung zwischen visuellen und semantischen Konzepten. In dieser Arbeit schlagen wir ein neues Framework namens Background Learnable Cascade (BLC) vor, um die Leistungsfähigkeit von ZSD zu verbessern. Die wesentlichen Beiträge des BLC sind wie folgt: (i) Wir schlagen eine mehrstufige Kaskadenstruktur namens Cascade Semantic R-CNN vor, um die Ausrichtung zwischen den visuellen und semantischen Aspekten der ZSD schrittweise zu verfeinern; (ii) Wir entwickeln eine Struktur des semantischen Informationsflusses und fügen sie direkt zwischen jeder Stufe des Cascade Semantic R-CNN hinzu, um das Lernen semantischer Merkmale weiter zu verbessern; (iii) Wir schlagen ein lernfähiges Region Proposal Network für den Hintergrund (BLRPN) vor, um einen geeigneten Wortvektor für die Hintergrundklasse zu erlernen und diesen gelernten Vektor im Cascade Semantic R-CNN zu verwenden. Diese Designentscheidung macht den "Hintergrund lernfähig" und reduziert die Verwechslungsgefahr zwischen Hintergrund und unbekannten Klassen. Unsere umfangreichen Experimente zeigen, dass BLC bei MS-COCO gegenüber den bislang besten Methoden signifikante Leistungsverbesserungen erzielt.