HyperAIHyperAI
vor 2 Monaten

MDETR -- Modulierte Detektion für die end-to-end mehrmodalen Verständnis

Kamath, Aishwarya ; Singh, Mannat ; LeCun, Yann ; Synnaeve, Gabriel ; Misra, Ishan ; Carion, Nicolas
MDETR -- Modulierte Detektion für die end-to-end mehrmodalen Verständnis
Abstract

Multimodale Schließsysteme basieren auf einem vortrainierten Objekterkennungssystem, das Regionen von Interesse aus dem Bild extrahiert. Dieses entscheidende Modul wird jedoch in der Regel als Black Box eingesetzt, unabhängig von der nachgelagerten Aufgabe trainiert und auf einer festen Vokabularliste von Objekten und Attributen. Dies erschwert es solchen Systemen, den langen Schwanz visueller Konzepte zu erfassen, die in freiformigem Text ausgedrückt werden. In dieser Arbeit schlagen wir MDETR vor, einen end-to-end modulierten Detektor, der Objekte in einem Bild unter Berücksichtigung eines rohen Textanfrags wie einer Bildunterschrift oder Frage erkennt. Wir verwenden eine transformerbasierte Architektur, um gemeinsam über Text und Bild zu schließen, indem wir die beiden Modalitäten bereits in einem frühen Stadium des Modells fusionieren. Das Netzwerk wird auf 1,3 Millionen Text-Bild-Paaren vortrainiert, die aus bestehenden multimodalen Datensätzen mit expliziter Ausrichtung zwischen Phrasen im Text und Objekten im Bild abgebaut wurden. Anschließend feinjustieren wir es an mehreren nachgelagerten Aufgaben wie Phrasengrundierung (phrase grounding), Verständnis referenzierender Ausdrücke (referring expression comprehension) und Segmentierung (segmentation), wobei wir state-of-the-art Ergebnisse bei gängigen Benchmarks erzielen. Wir untersuchen auch die Nützlichkeit unseres Modells als Objekterkennungssystem für eine gegebene Label-Liste bei Feinjustierung in einem Few-Shot-Szenario. Wir zeigen, dass unser Ansatz zur Vortrainierung eine Möglichkeit bietet, den langen Schwanz von Objekt-Kategorien zu behandeln, die nur sehr wenige annotierte Instanzen haben. Unser Verfahren kann leicht erweitert werden für visuelle Fragebeantwortung (visual question answering), wobei es wettbewerbsfähige Leistungen auf GQA und CLEVR erreicht. Der Code und die Modelle sind unter https://github.com/ashkamath/mdetr verfügbar.

MDETR -- Modulierte Detektion für die end-to-end mehrmodalen Verständnis | Neueste Forschungsarbeiten | HyperAI