Mehrlabel-Bildklassifizierung durch Wissensdistillierung aus schwach überwachter Detektion

Die mehrklassige Bildklassifizierung ist eine grundlegende, aber herausfordernde Aufgabe auf dem Weg zu einer allgemeinen visuellen Verständnisfähigkeit. Bestehende Methoden haben festgestellt, dass regionale Hinweise (z.B. Merkmale aus Regionen von Interesse (RoIs)) die mehrklassige Klassifizierung fördern können. Dennoch benötigen solche Methoden in der Regel aufwendige Objekt-Level-Annotationen (d.h., Objektetiketten und Begrenzungsrahmen) für ein effektives Lernen der objektorientierten visuellen Merkmale. In dieser Arbeit schlagen wir einen neuen und effizienten tiefen Framework vor, um die mehrklassige Klassifizierung durch Wissensverdistillierung aus schwach überwachten Detektionsaufgaben ohne Annotationen von Begrenzungsrahmen zu verbessern. Speziell entwickeln wir bei gegebenen Bild-Level-Annotationen (1) zunächst ein Modell für schwach überwachte Detektion (WSD), und dann (2) bauen wir ein end-to-end mehrklassiges Bildklassifizierungsframework auf, das durch einen Wissensverdistillierungsmodul erweitert wird. Dieser Modul leitet das Klassifizierungsmodell durch das WSD-Modell anhand der Klassebene-Vorhersagen für das gesamte Bild und der objektorientierten visuellen Merkmale für Objekt-RoIs. Das WSD-Modell fungiert als Lehrermodell, während das Klassifizierungsmodell als Schülersmodell dient. Nach dieser Kreuzaufgabenspezifischen Wissensverdistillierung wird die Leistung des Klassifizierungsmodells erheblich verbessert, wobei die Effizienz gewahrt bleibt, da das WSD-Modell in der Testphase sicher verworfen werden kann. Ausführliche Experimente mit zwei großen Datensätzen (MS-COCO und NUS-WIDE) zeigen, dass unser Framework sowohl in Bezug auf Leistung als auch Effizienz über den Stand der Technik hinausgehende Ergebnisse erzielt.