HyperAIHyperAI

Command Palette

Search for a command to run...

MDETR -- Modulierte Detektion für die end-to-end mehrmodalen Verständnis

Kamath Aishwarya ; Singh Mannat ; LeCun Yann ; Synnaeve Gabriel ; Misra Ishan ; Carion Nicolas

Zusammenfassung

Multimodale Schließsysteme basieren auf einem vortrainierten Objekterkennungssystem, das Regionen von Interesse aus dem Bild extrahiert. Dieses entscheidende Modul wird jedoch in der Regel als Black Box eingesetzt, unabhängig von der nachgelagerten Aufgabe trainiert und auf einer festen Vokabularliste von Objekten und Attributen. Dies erschwert es solchen Systemen, den langen Schwanz visueller Konzepte zu erfassen, die in freiformigem Text ausgedrückt werden. In dieser Arbeit schlagen wir MDETR vor, einen end-to-end modulierten Detektor, der Objekte in einem Bild unter Berücksichtigung eines rohen Textanfrags wie einer Bildunterschrift oder Frage erkennt. Wir verwenden eine transformerbasierte Architektur, um gemeinsam über Text und Bild zu schließen, indem wir die beiden Modalitäten bereits in einem frühen Stadium des Modells fusionieren. Das Netzwerk wird auf 1,3 Millionen Text-Bild-Paaren vortrainiert, die aus bestehenden multimodalen Datensätzen mit expliziter Ausrichtung zwischen Phrasen im Text und Objekten im Bild abgebaut wurden. Anschließend feinjustieren wir es an mehreren nachgelagerten Aufgaben wie Phrasengrundierung (phrase grounding), Verständnis referenzierender Ausdrücke (referring expression comprehension) und Segmentierung (segmentation), wobei wir state-of-the-art Ergebnisse bei gängigen Benchmarks erzielen. Wir untersuchen auch die Nützlichkeit unseres Modells als Objekterkennungssystem für eine gegebene Label-Liste bei Feinjustierung in einem Few-Shot-Szenario. Wir zeigen, dass unser Ansatz zur Vortrainierung eine Möglichkeit bietet, den langen Schwanz von Objekt-Kategorien zu behandeln, die nur sehr wenige annotierte Instanzen haben. Unser Verfahren kann leicht erweitert werden für visuelle Fragebeantwortung (visual question answering), wobei es wettbewerbsfähige Leistungen auf GQA und CLEVR erreicht. Der Code und die Modelle sind unter https://github.com/ashkamath/mdetr verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp