vor 2 Monaten

Offene-Vokabular-Objekterkennung durch Wissensdistillierung aus Vision und Sprache

Xiuye Gu; Tsung-Yi Lin; Weicheng Kuo; Yin Cui

Abstract

Unser Ziel ist es, die offene Vokabular-Objekterkennung voranzubringen, die Objekte erkennt, die durch beliebige Texteingaben beschrieben werden. Die grundlegende Herausforderung liegt in der Verfügbarkeit von Trainingsdaten. Es ist kostspielig, die Anzahl der Klassen in bestehenden Objekterkennungsdatensätzen weiter zu erhöhen. Um dieser Herausforderung zu begegnen, schlagen wir ViLD vor, eine Trainingsmethode mittels Wissensverdistillierung aus Vision und Sprache (Vision and Language Knowledge Distillation). Unsere Methode verarbeitet das Wissen eines vortrainierten offenen Vokabular-Bildklassifikationsmodells (Lehrer) in einen zweistufigen Detektor (Schüler). Genauer gesagt verwenden wir das Lehrermodell, um Kategorietexte und Bildregionen von Objektvorschlägen zu kodieren. Anschließend trainieren wir einen Schülerdetektor, dessen Regionsembeddings der detektierten Boxen mit den Text- und Bildembeddings angeglichen werden, die vom Lehrer abgeleitet wurden. Wir evaluieren unsere Methode auf LVIS, indem wir alle seltenen Kategorien als neue Kategorien zurückhalten, die während des Trainings nicht gesehen wurden. ViLD erreicht mit einem ResNet-50-Rückgrat 16,1 Mask AP$r$, was sogar 3,8 besser ist als das überwachte Pendant. Wenn ein stärkeres Lehrermodell wie ALIGN verwendet wird, erreicht ViLD 26,3 AP$_r$. Das Modell kann direkt auf andere Datensätze übertragen werden, ohne Feinabstimmung (fine-tuning), wodurch es 72,2 AP${50}$ auf PASCAL VOC, 36,6 AP auf COCO und 11,8 AP auf Objects365 erreicht. Auf COCO übertrifft ViLD den bisherigen Stand der Technik um 4,8 bei neuem AP und um 11,4 im Gesamtevaluation. Der Quellcode und eine Demonstration sind unter https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild öffentlich zugänglich gemacht worden.