Grundlegende Sprach-Bild-Vortrainings

Dieses Papier stellt ein grundlegendes Sprach-Bild-Vortrainingsmodell (GLIP) vor, das für das Lernen von objektorientierten, sprachbewussten und semantisch reichen visuellen Repräsentationen entwickelt wurde. GLIP vereint Objekterkennung und Phrasengrundierung im Vortraining. Diese Vereinigung bringt zwei Vorteile mit sich: 1) Es ermöglicht es GLIP, sowohl aus Erkennungs- als auch aus Grundierungsdaten zu lernen, um beide Aufgaben zu verbessern und ein gutes Grundierungsmodell aufzubauen; 2) GLIP kann durch die selbstständige Generierung von Grundierungsbereichen massiv von Bild-Text-Paaren profitieren, was die erlernten Repräsentationen semantisch reich macht.In unseren Experimenten haben wir GLIP mit 27 Millionen Grundierungsdaten vorgetrainiert, darunter 3 Millionen menschlich annotierte und 24 Millionen webgekrochene Bild-Text-Paare. Die erlernten Repräsentationen zeigen eine starke Übertragbarkeit bei Null-Shot- und Few-Shot-Aufgaben in verschiedenen objektorientierten Erkennungsaufgaben. 1) Bei direkter Auswertung auf COCO und LVIS (ohne dass während des Vortrainings irgendwelche Bilder aus COCO gesehen wurden) erreicht GLIP jeweils 49,8 AP und 26,9 AP, wodurch es viele überwachte Baseline-Modelle übertrifft. 2) Nach dem Feinjustieren auf COCO erreicht GLIP einen AP-Wert von 60,8 im Validierungsdatensatz und 61,5 im Test-Dev-Datensatz, wodurch es den bisherigen State-of-the-Art übertreffen kann. 3) Bei der Übertragung auf 13 nachgeschaltete Objekterkennungsaufgaben kann ein One-Shot-GLIP einem vollständig überwachten Dynamic Head gleichkommen.Der Quellcode ist unter https://github.com/microsoft/GLIP veröffentlicht.