HyperAIHyperAI

Command Palette

Search for a command to run...

ImageBERT: Kreuzmodales Vortraining mit groß angelegten schwach überwachten Bild-Text-Daten

Di Qi; Lin Su; Jia Song; Edward Cui; Taroon Bharti; Arun Sacheti

Zusammenfassung

In dieser Arbeit stellen wir ein neues visuell-sprachliches vortrainiertes Modell – ImageBERT – für die gemeinsame Einbettung von Bildern und Texten vor. Unser Modell basiert auf dem Transformer-Architekturprinzip und verarbeitet verschiedene Modalitäten als Eingabe, um deren Beziehung zu modellieren. Das Modell wird gleichzeitig in vier Aufgaben vortrainiert: Maskierte Sprachmodellierung (Masked Language Modeling, MLM), Maskierte Objektklassifizierung (Masked Object Classification, MOC), Maskierte Regionenmerkmalsregression (Masked Region Feature Regression, MRFR) und Bild-Text-Matching (Image Text Matching, ITM). Um die Qualität des Vortrainings weiter zu verbessern, haben wir einen Large-scale weAk-supervised Image-Text (LAIT)-Datensatz aus dem Web gesammelt. Wir vortrainieren das Modell zunächst anhand dieses Datensatzes und führen dann eine zweite Vortrainierungsphase mit den Conceptual Captions und den SBU Captions durch. Unsere Experimente zeigen, dass die mehrstufige Vortrainierungsstrategie der einstufigen überlegen ist. Des Weiteren feinjustieren und evaluieren wir unser vortrainiertes ImageBERT-Modell in Aufgaben der Bildsuche und Textsuche und erzielen dabei neue Stand der Technik-Ergebnisse sowohl im MSCOCO- als auch im Flickr30k-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp