HyperAIHyperAI

Command Palette

Search for a command to run...

Objekt-Region Video-Transformer

Roei Herzig Elad Ben-Avraham Karttikeya Mangalam Amir Bar Gal Chechik Anna Rohrbach Trevor Darrell Amir Globerson

Zusammenfassung

Kürzlich haben Video-Transformer erheblichen Erfolg bei der Videoverstehensaufgabe gezeigt und die Leistung von CNNs übertroffen; dennoch modellieren bestehende Video-Transformer-Modelle keine Objekte explizit, obwohl Objekte für die Erkennung von Aktionen von entscheidender Bedeutung sein können. In dieser Arbeit präsentieren wir Object-Region Video Transformers (ORViT), einen objektorientierten Ansatz, der Video-Transformer-Schichten durch einen Block erweitert, der direkt Objektrepräsentationen integriert. Der zentrale Ansatz besteht darin, objektorientierte Repräsentationen bereits in frühen Schichten zu fusionieren und diese in die Transformer-Schichten zu propagieren, wodurch die spatiotemporale Repräsentation über das gesamte Netzwerk beeinflusst wird. Unser ORViT-Block besteht aus zwei objektorientierten Strömen: einem Erscheinungs- und einem Dynamikstrom. Im Erscheinungsstrom wendet ein „Object-Region Attention“-Modul Selbst-Attention über die Patch-Token und die Objektregionen an. Auf diese Weise interagieren visuelle Objektregionen mit gleichmäßigen Patch-Token und werden durch kontextualisierte Objektinformationen angereichert. Zudem modellieren wir die Objektdynamik über ein separates „Object-Dynamics-Modul“, das Trajektorieninteraktionen erfasst, und zeigen, wie die beiden Ströme integriert werden können. Wir evaluieren unser Modell an vier Aufgaben und fünf Datensätzen: kompositionelle und Few-Shot-Aktionserkennung auf SomethingElse, spatiotemporale Aktionsdetektion auf AVA sowie Standard-Aktionserkennung auf Something-Something V2, Diving48 und Epic-Kitchen100. Wir zeigen eine signifikante Leistungssteigerung auf allen betrachteten Aufgaben und Datensätzen, was die Bedeutung eines Modells unterstreicht, das Objektrepräsentationen in eine Transformer-Architektur integriert. Für den Quellcode und vortrainierte Modelle besuchen Sie die Projektseite unter \url{https://roeiherz.github.io/ORViT/}


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp