Hopper: Multi-hop Transformer für räumlich-zeitliche Schlussfolgerung

Diese Arbeit befasst sich mit dem Problem der raumzeitlichen objektzentrierten Schlussfolgerung in Videos. Zentraler Bestandteil unseres Ansatzes ist der Begriff der Objektdauerhaftigkeit, also der Fähigkeit, die Position von Objekten während ihrer Bewegung im Video zu verfolgen, auch wenn sie verdeckt, eingeschlossen oder von anderen Objekten getragen werden. Bestehende auf tiefen neuronalen Netzen basierende Ansätze leiden häufig unter raumzeitlichen Verzerrungen, wenn sie auf Probleme der Video-Schlussfolgerung angewendet werden. Wir stellen Hopper vor, ein Modell, das einen Multi-hop Transformer zur Schlussfolgerung der Objektdauerhaftigkeit in Videos nutzt. Gegeben ein Video und eine Lokalisierungsanfrage, durchläuft Hopper iterativ Bilder und Objektverfolgungstrajektorien, um automatisch über kritische Frames hinwegzuspringen und die endgültige Position des interessierenden Objekts vorherzusagen. Wir zeigen die Wirksamkeit einer kontrastiven Verlustfunktion zur Reduzierung raumzeitlicher Verzerrungen. Wir evaluieren Hopper am CATER-Datensatz und zeigen, dass das Modell mit nur 1 FPS eine Top-1-Accuracy von 73,2 % erreicht, indem es lediglich wenige kritische Frames durchläuft. Zudem demonstrieren wir, dass Hopper auch langfristige Schlussfolgerungen durchführen kann, indem wir einen erweiterten CATER-h-Datensatz erstellen, der mehrschrittige Schlussfolgerungen erfordert, um Objekte präzise zu lokalisieren.