vor 16 Tagen

VinVL: Die Überarbeitung visueller Darstellungen in Vision-Language-Modellen

Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao

Abstract

Diese Arbeit präsentiert eine detaillierte Studie zur Verbesserung visueller Darstellungen für Aufgaben im Bereich Vision-Sprache (VL) und entwickelt ein verbessertes Objektdetektionsmodell, das objektorientierte Darstellungen von Bildern bereitstellt. Im Vergleich zum am häufigsten verwendeten \emph{bottom-up and top-down}-Modell \cite{anderson2018bottom} ist das neue Modell größer, besser auf VL-Aufgaben zugeschnitten und auf viel umfangreicheren Trainingskorpora vortrainiert, die mehrere öffentlich verfügbare, annotierte Datensätze für Objektdetektion kombinieren. Dadurch kann es Darstellungen einer vielfältigeren Palette visueller Objekte und Konzepte generieren. Während frühere VL-Forschung sich hauptsächlich auf die Verbesserung des Vision-Sprache-Fusionsmodelles konzentrierte und die Verbesserung des Objektdetektionsmodells unbeachtet ließ, zeigen wir, dass visuelle Merkmale eine entscheidende Rolle für die Leistung von VL-Modellen spielen. In unseren Experimenten nutzen wir die durch das neue Objektdetektionsmodell generierten visuellen Merkmale als Eingabe in ein Transformer-basiertes VL-Fusionsmodell \oscar \cite{li2020oscar} und setzen einen verbesserten Ansatz \short{} ein, um das VL-Modell vorzutrainieren und anschließend an einer Vielzahl von nachgeschalteten VL-Aufgaben zu feinabstimmen. Unsere Ergebnisse zeigen, dass die neuen visuellen Merkmale die Leistung in allen VL-Aufgaben signifikant verbessern und auf sieben öffentlichen Benchmarks neue SOTA-Ergebnisse erzielen. Das neue Objektdetektionsmodell wird öffentlich verfügbar gemacht.