HyperAIHyperAI

Command Palette

Search for a command to run...

Grundlegende Sprach-Bild-Vortrainings

Zusammenfassung

Dieses Papier stellt ein grundlegendes Sprach-Bild-Vortrainingsmodell (GLIP) vor, das für das Lernen von objektorientierten, sprachbewussten und semantisch reichen visuellen Repräsentationen entwickelt wurde. GLIP vereint Objekterkennung und Phrasengrundierung im Vortraining. Diese Vereinigung bringt zwei Vorteile mit sich: 1) Es ermöglicht es GLIP, sowohl aus Erkennungs- als auch aus Grundierungsdaten zu lernen, um beide Aufgaben zu verbessern und ein gutes Grundierungsmodell aufzubauen; 2) GLIP kann durch die selbstständige Generierung von Grundierungsbereichen massiv von Bild-Text-Paaren profitieren, was die erlernten Repräsentationen semantisch reich macht.In unseren Experimenten haben wir GLIP mit 27 Millionen Grundierungsdaten vorgetrainiert, darunter 3 Millionen menschlich annotierte und 24 Millionen webgekrochene Bild-Text-Paare. Die erlernten Repräsentationen zeigen eine starke Übertragbarkeit bei Null-Shot- und Few-Shot-Aufgaben in verschiedenen objektorientierten Erkennungsaufgaben. 1) Bei direkter Auswertung auf COCO und LVIS (ohne dass während des Vortrainings irgendwelche Bilder aus COCO gesehen wurden) erreicht GLIP jeweils 49,8 AP und 26,9 AP, wodurch es viele überwachte Baseline-Modelle übertrifft. 2) Nach dem Feinjustieren auf COCO erreicht GLIP einen AP-Wert von 60,8 im Validierungsdatensatz und 61,5 im Test-Dev-Datensatz, wodurch es den bisherigen State-of-the-Art übertreffen kann. 3) Bei der Übertragung auf 13 nachgeschaltete Objekterkennungsaufgaben kann ein One-Shot-GLIP einem vollständig überwachten Dynamic Head gleichkommen.Der Quellcode ist unter https://github.com/microsoft/GLIP veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Grundlegende Sprach-Bild-Vortrainings | Paper | HyperAI