HyperAIHyperAI

Command Palette

Search for a command to run...

Hopper: Multi-hop Transformer für räumlich-zeitliche Schlussfolgerung

Honglu Zhou Asim Kadav Farley Lai Alexandru Niculescu-Mizil Martin Renqiang Min Mubbasir Kapadia Hans Peter Graf

Zusammenfassung

Diese Arbeit befasst sich mit dem Problem der raumzeitlichen objektzentrierten Schlussfolgerung in Videos. Zentraler Bestandteil unseres Ansatzes ist der Begriff der Objektdauerhaftigkeit, also der Fähigkeit, die Position von Objekten während ihrer Bewegung im Video zu verfolgen, auch wenn sie verdeckt, eingeschlossen oder von anderen Objekten getragen werden. Bestehende auf tiefen neuronalen Netzen basierende Ansätze leiden häufig unter raumzeitlichen Verzerrungen, wenn sie auf Probleme der Video-Schlussfolgerung angewendet werden. Wir stellen Hopper vor, ein Modell, das einen Multi-hop Transformer zur Schlussfolgerung der Objektdauerhaftigkeit in Videos nutzt. Gegeben ein Video und eine Lokalisierungsanfrage, durchläuft Hopper iterativ Bilder und Objektverfolgungstrajektorien, um automatisch über kritische Frames hinwegzuspringen und die endgültige Position des interessierenden Objekts vorherzusagen. Wir zeigen die Wirksamkeit einer kontrastiven Verlustfunktion zur Reduzierung raumzeitlicher Verzerrungen. Wir evaluieren Hopper am CATER-Datensatz und zeigen, dass das Modell mit nur 1 FPS eine Top-1-Accuracy von 73,2 % erreicht, indem es lediglich wenige kritische Frames durchläuft. Zudem demonstrieren wir, dass Hopper auch langfristige Schlussfolgerungen durchführen kann, indem wir einen erweiterten CATER-h-Datensatz erstellen, der mehrschrittige Schlussfolgerungen erfordert, um Objekte präzise zu lokalisieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hopper: Multi-hop Transformer für räumlich-zeitliche Schlussfolgerung | Paper | HyperAI