vor 8 Monaten

Zusammenfassung

Multimodale Schließsysteme basieren auf einem vortrainierten Objekterkennungssystem, das Regionen von Interesse aus dem Bild extrahiert. Dieses entscheidende Modul wird jedoch in der Regel als Black Box eingesetzt, unabhängig von der nachgelagerten Aufgabe trainiert und auf einer festen Vokabularliste von Objekten und Attributen. Dies erschwert es solchen Systemen, den langen Schwanz visueller Konzepte zu erfassen, die in freiformigem Text ausgedrückt werden. In dieser Arbeit schlagen wir MDETR vor, einen end-to-end modulierten Detektor, der Objekte in einem Bild unter Berücksichtigung eines rohen Textanfrags wie einer Bildunterschrift oder Frage erkennt. Wir verwenden eine transformerbasierte Architektur, um gemeinsam über Text und Bild zu schließen, indem wir die beiden Modalitäten bereits in einem frühen Stadium des Modells fusionieren. Das Netzwerk wird auf 1,3 Millionen Text-Bild-Paaren vortrainiert, die aus bestehenden multimodalen Datensätzen mit expliziter Ausrichtung zwischen Phrasen im Text und Objekten im Bild abgebaut wurden. Anschließend feinjustieren wir es an mehreren nachgelagerten Aufgaben wie Phrasengrundierung (phrase grounding), Verständnis referenzierender Ausdrücke (referring expression comprehension) und Segmentierung (segmentation), wobei wir state-of-the-art Ergebnisse bei gängigen Benchmarks erzielen. Wir untersuchen auch die Nützlichkeit unseres Modells als Objekterkennungssystem für eine gegebene Label-Liste bei Feinjustierung in einem Few-Shot-Szenario. Wir zeigen, dass unser Ansatz zur Vortrainierung eine Möglichkeit bietet, den langen Schwanz von Objekt-Kategorien zu behandeln, die nur sehr wenige annotierte Instanzen haben. Unser Verfahren kann leicht erweitert werden für visuelle Fragebeantwortung (visual question answering), wobei es wettbewerbsfähige Leistungen auf GQA und CLEVR erreicht. Der Code und die Modelle sind unter https://github.com/ashkamath/mdetr verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Objekterkennung

Visuelle Fragebeantwortung

Multimodal

Computervision

Aufgabe

Kamath Aishwarya ; Singh Mannat ; LeCun Yann ; Synnaeve Gabriel ; Misra Ishan ; Carion Nicolas

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Objekterkennung

Visuelle Fragebeantwortung

Multimodal

Computervision

Aufgabe

Kamath Aishwarya ; Singh Mannat ; LeCun Yann ; Synnaeve Gabriel ; Misra Ishan ; Carion Nicolas

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MDETR -- Modulierte Detektion für die end-to-end mehrmodalen Verständnis

Kamath Aishwarya ; Singh Mannat ; LeCun Yann ; Synnaeve Gabriel ; Misra Ishan ; Carion Nicolas

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MDETR -- Modulierte Detektion für die end-to-end mehrmodalen Verständnis

Kamath Aishwarya ; Singh Mannat ; LeCun Yann ; Synnaeve Gabriel ; Misra Ishan ; Carion Nicolas

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MDETR -- Modulierte Detektion für die end-to-end mehrmodalen Verständnis

Kamath Aishwarya ; Singh Mannat ; LeCun Yann ; Synnaeve Gabriel ; Misra Ishan ; Carion Nicolas

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters