Omnivore: Ein einziges Modell für viele visuelle Modalitäten

Bisherige Arbeiten haben verschiedene visuelle Modalitäten isoliert untersucht und getrennte Architekturen für die Erkennung von Bildern, Videos und 3D-Daten entwickelt. Stattdessen schlagen wir in diesem Paper ein einziges Modell vor, das mit genau denselben Modellparametern gleichzeitig Bilder, Videos und Einzelansicht-3D-Daten effizient klassifiziert. Unser Modell „Omnivore“ nutzt die Flexibilität transformerbasierter Architekturen und wird gemeinsam auf Klassifizierungsaufgaben verschiedener Modalitäten trainiert. Omnivore ist einfach zu trainieren, verwendet Standard-Datensätze aus dem Alltag und erreicht Leistungen, die mindestens derer modality-spezifischer Modelle gleicher Größe entsprechen oder diese übertreffen. Ein einzelnes Omnivore-Modell erzielt 86,0 % auf ImageNet, 84,1 % auf Kinetics und 67,1 % auf SUN RGB-D. Nach Feintuning übertrifft unser Modell die bisherigen Ansätze bei einer Vielzahl visueller Aufgaben und zeigt eine gute Generalisierung über Modalitäten hinweg. Die gemeinsame visuelle Darstellung von Omnivore ermöglicht naturgemäß die Kreuzmodalitäts-Erkennung, ohne dass Korrespondenzen zwischen den Modalitäten erforderlich sind. Wir hoffen, dass unsere Ergebnisse Forscher dazu anregen, visuelle Modalitäten gemeinsam zu modellieren.