HyperAIHyperAI
vor 2 Monaten

Coarse-to-Fine Vision-Sprache Vortraining mit Fusion im Backbone

Dou, Zi-Yi ; Kamath, Aishwarya ; Gan, Zhe ; Zhang, Pengchuan ; Wang, Jianfeng ; Li, Linjie ; Liu, Zicheng ; Liu, Ce ; LeCun, Yann ; Peng, Nanyun ; Gao, Jianfeng ; Wang, Lijuan
Coarse-to-Fine Vision-Sprache Vortraining mit Fusion im Backbone
Abstract

Vision-Language (VL)-Vorabtraining hat in letzter Zeit erhebliche Aufmerksamkeit erfahren. Die meisten existierenden End-to-End-Vorabtrainingsansätze zielen jedoch entweder nur auf VL-Aufgaben ab, wie Bild-Text-Retrieval, visuelle Fragebeantwortung (VQA) und Bildbeschreibung, die ein hochgradiges Verständnis von Bildern testen, oder sie konzentrieren sich nur auf regionales Verständnis für Aufgaben wie Phrasengrundierung und Objekterkennung. Wir stellen FIBER (Fusion-In-the-Backbone-basierter Transformer) vor, eine neue VL-Modellarchitektur, die diese beiden Arten von Aufgaben nahtlos bearbeiten kann. Anstatt dedizierte Transformer-Schichten für die Fusion nach den unimodalen Backbones zu verwenden, führt FIBER die multimodale Fusion tief in das Modell ein, indem es Kreuzaufmerksamkeit (cross-attention) in die Bild- und Textbackbones einfügt, was Vorteile im Hinblick auf Speicherbedarf und Leistung bringt. Zudem nutzen wir im Gegensatz zu früheren Arbeiten, die entweder nur mit Bild-Text-Daten oder mit feinkörnigen Daten mit box-level-Annotierungen vorabtrainiert wurden, eine zweistufige Vorabtrainingsstrategie, die beide Arten von Daten effizient nutzt: (i) grobkörniges Vorabtraining basierend auf Bild-Text-Daten; gefolgt von (ii) feinkörnigem Vorabtraining basierend auf Bild-Text-Box-Daten. Wir führen umfassende Experimente an einem breiten Spektrum von VL-Aufgaben durch, von VQA, Bildbeschreibung und Retrieval bis hin zu Phrasengrundierung, referentieller Ausdrucksverstehensanalyse und Objekterkennung. Durch tiefgreifende multimodale Fusion in Verbindung mit der zweistufigen Vorabtrainingsstrategie bietet FIBER über alle Aufgaben hinweg konsistente Leistungsverbesserungen gegenüber starken Baselines und übertreffen oft Methoden, die um Größenordnungen mehr Daten verwenden. Der Quellcode ist unter https://github.com/microsoft/FIBER verfügbar.

Coarse-to-Fine Vision-Sprache Vortraining mit Fusion im Backbone | Neueste Forschungsarbeiten | HyperAI