HyperAIHyperAI

Command Palette

Search for a command to run...

Offene-Vokabular-Objekterkennung durch Wissensdistillierung aus Vision und Sprache

Xiuye Gu; Tsung-Yi Lin; Weicheng Kuo; Yin Cui

Zusammenfassung

Unser Ziel ist es, die offene Vokabular-Objekterkennung voranzubringen, die Objekte erkennt, die durch beliebige Texteingaben beschrieben werden. Die grundlegende Herausforderung liegt in der Verfügbarkeit von Trainingsdaten. Es ist kostspielig, die Anzahl der Klassen in bestehenden Objekterkennungsdatensätzen weiter zu erhöhen. Um dieser Herausforderung zu begegnen, schlagen wir ViLD vor, eine Trainingsmethode mittels Wissensverdistillierung aus Vision und Sprache (Vision and Language Knowledge Distillation). Unsere Methode verarbeitet das Wissen eines vortrainierten offenen Vokabular-Bildklassifikationsmodells (Lehrer) in einen zweistufigen Detektor (Schüler). Genauer gesagt verwenden wir das Lehrermodell, um Kategorietexte und Bildregionen von Objektvorschlägen zu kodieren. Anschließend trainieren wir einen Schülerdetektor, dessen Regionsembeddings der detektierten Boxen mit den Text- und Bildembeddings angeglichen werden, die vom Lehrer abgeleitet wurden. Wir evaluieren unsere Methode auf LVIS, indem wir alle seltenen Kategorien als neue Kategorien zurückhalten, die während des Trainings nicht gesehen wurden. ViLD erreicht mit einem ResNet-50-Rückgrat 16,1 Mask APrrr, was sogar 3,8 besser ist als das überwachte Pendant. Wenn ein stärkeres Lehrermodell wie ALIGN verwendet wird, erreicht ViLD 26,3 APr_rr. Das Modell kann direkt auf andere Datensätze übertragen werden, ohne Feinabstimmung (fine-tuning), wodurch es 72,2 AP50{50}50 auf PASCAL VOC, 36,6 AP auf COCO und 11,8 AP auf Objects365 erreicht. Auf COCO übertrifft ViLD den bisherigen Stand der Technik um 4,8 bei neuem AP und um 11,4 im Gesamtevaluation. Der Quellcode und eine Demonstration sind unter https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild öffentlich zugänglich gemacht worden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp