HyperAIHyperAI

Command Palette

Search for a command to run...

Omnivore: Ein einziges Modell für viele visuelle Modalitäten

Rohit Girdhar Mannat Singh Nikhila Ravi Laurens van der Maaten Armand Joulin Ishan Misra

Zusammenfassung

Bisherige Arbeiten haben verschiedene visuelle Modalitäten isoliert untersucht und getrennte Architekturen für die Erkennung von Bildern, Videos und 3D-Daten entwickelt. Stattdessen schlagen wir in diesem Paper ein einziges Modell vor, das mit genau denselben Modellparametern gleichzeitig Bilder, Videos und Einzelansicht-3D-Daten effizient klassifiziert. Unser Modell „Omnivore“ nutzt die Flexibilität transformerbasierter Architekturen und wird gemeinsam auf Klassifizierungsaufgaben verschiedener Modalitäten trainiert. Omnivore ist einfach zu trainieren, verwendet Standard-Datensätze aus dem Alltag und erreicht Leistungen, die mindestens derer modality-spezifischer Modelle gleicher Größe entsprechen oder diese übertreffen. Ein einzelnes Omnivore-Modell erzielt 86,0 % auf ImageNet, 84,1 % auf Kinetics und 67,1 % auf SUN RGB-D. Nach Feintuning übertrifft unser Modell die bisherigen Ansätze bei einer Vielzahl visueller Aufgaben und zeigt eine gute Generalisierung über Modalitäten hinweg. Die gemeinsame visuelle Darstellung von Omnivore ermöglicht naturgemäß die Kreuzmodalitäts-Erkennung, ohne dass Korrespondenzen zwischen den Modalitäten erforderlich sind. Wir hoffen, dass unsere Ergebnisse Forscher dazu anregen, visuelle Modalitäten gemeinsam zu modellieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Omnivore: Ein einziges Modell für viele visuelle Modalitäten | Paper | HyperAI