HyperAIHyperAI

Command Palette

Search for a command to run...

VinVL: Die Überarbeitung visueller Darstellungen in Vision-Language-Modellen

Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao

Zusammenfassung

Diese Arbeit präsentiert eine detaillierte Studie zur Verbesserung visueller Darstellungen für Aufgaben im Bereich Vision-Sprache (VL) und entwickelt ein verbessertes Objektdetektionsmodell, das objektorientierte Darstellungen von Bildern bereitstellt. Im Vergleich zum am häufigsten verwendeten \emph{bottom-up and top-down}-Modell \cite{anderson2018bottom} ist das neue Modell größer, besser auf VL-Aufgaben zugeschnitten und auf viel umfangreicheren Trainingskorpora vortrainiert, die mehrere öffentlich verfügbare, annotierte Datensätze für Objektdetektion kombinieren. Dadurch kann es Darstellungen einer vielfältigeren Palette visueller Objekte und Konzepte generieren. Während frühere VL-Forschung sich hauptsächlich auf die Verbesserung des Vision-Sprache-Fusionsmodelles konzentrierte und die Verbesserung des Objektdetektionsmodells unbeachtet ließ, zeigen wir, dass visuelle Merkmale eine entscheidende Rolle für die Leistung von VL-Modellen spielen. In unseren Experimenten nutzen wir die durch das neue Objektdetektionsmodell generierten visuellen Merkmale als Eingabe in ein Transformer-basiertes VL-Fusionsmodell \oscar \cite{li2020oscar} und setzen einen verbesserten Ansatz \short{} ein, um das VL-Modell vorzutrainieren und anschließend an einer Vielzahl von nachgeschalteten VL-Aufgaben zu feinabstimmen. Unsere Ergebnisse zeigen, dass die neuen visuellen Merkmale die Leistung in allen VL-Aufgaben signifikant verbessern und auf sieben öffentlichen Benchmarks neue SOTA-Ergebnisse erzielen. Das neue Objektdetektionsmodell wird öffentlich verfügbar gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp