vor 17 Tagen

Objekt-Region Video-Transformer

Roei Herzig, Elad Ben-Avraham, Karttikeya Mangalam, Amir Bar, Gal Chechik, Anna Rohrbach, Trevor Darrell, Amir Globerson

Details der Forschungsarbeit anzeigen

Abstract

Kürzlich haben Video-Transformer erheblichen Erfolg bei der Videoverstehensaufgabe gezeigt und die Leistung von CNNs übertroffen; dennoch modellieren bestehende Video-Transformer-Modelle keine Objekte explizit, obwohl Objekte für die Erkennung von Aktionen von entscheidender Bedeutung sein können. In dieser Arbeit präsentieren wir Object-Region Video Transformers (ORViT), einen objektorientierten Ansatz, der Video-Transformer-Schichten durch einen Block erweitert, der direkt Objektrepräsentationen integriert. Der zentrale Ansatz besteht darin, objektorientierte Repräsentationen bereits in frühen Schichten zu fusionieren und diese in die Transformer-Schichten zu propagieren, wodurch die spatiotemporale Repräsentation über das gesamte Netzwerk beeinflusst wird. Unser ORViT-Block besteht aus zwei objektorientierten Strömen: einem Erscheinungs- und einem Dynamikstrom. Im Erscheinungsstrom wendet ein „Object-Region Attention“-Modul Selbst-Attention über die Patch-Token und die Objektregionen an. Auf diese Weise interagieren visuelle Objektregionen mit gleichmäßigen Patch-Token und werden durch kontextualisierte Objektinformationen angereichert. Zudem modellieren wir die Objektdynamik über ein separates „Object-Dynamics-Modul“, das Trajektorieninteraktionen erfasst, und zeigen, wie die beiden Ströme integriert werden können. Wir evaluieren unser Modell an vier Aufgaben und fünf Datensätzen: kompositionelle und Few-Shot-Aktionserkennung auf SomethingElse, spatiotemporale Aktionsdetektion auf AVA sowie Standard-Aktionserkennung auf Something-Something V2, Diving48 und Epic-Kitchen100. Wir zeigen eine signifikante Leistungssteigerung auf allen betrachteten Aufgaben und Datensätzen, was die Bedeutung eines Modells unterstreicht, das Objektrepräsentationen in eine Transformer-Architektur integriert. Für den Quellcode und vortrainierte Modelle besuchen Sie die Projektseite unter \url{https://roeiherz.github.io/ORViT/}