Einheitliche Kurz- und Langzeitverfolgung mit Graphenhierarchien

Die effektive Verfolgung von Objekten über lange Videosequenzen erfordert die Lösung einer Vielzahl von Problemen, die von der kurzfristigen Zuordnung unverdeckter Objekte bis hin zur langfristigen Zuordnung von Objekten reichen, die verdeckt sind und später im Szenenbild wieder auftauchen. Methoden zur Bewältigung dieser beiden Aufgaben sind oft getrennt voneinander entwickelt und auf spezifische Szenarien zugeschnitten, während die derzeit besten Ansätze häufig eine Kombination verschiedener Techniken darstellen. Diese hybriden Ansätze führen zu ingenieurtechnisch aufwendigen Lösungen, die an Genauigkeit und Allgemeingültigkeit mangeln. In dieser Arbeit hinterfragen wir die Notwendigkeit solcher hybriden Ansätze und stellen SUSHI vor – einen einheitlichen und skalierbaren Multi-Objekt-Tracker. Unser Ansatz verarbeitet lange Clips, indem er diese in eine Hierarchie von Teilclips unterteilt, was eine hohe Skalierbarkeit ermöglicht. Wir nutzen Graph-Neuronale Netze, um alle Ebenen dieser Hierarchie zu verarbeiten, wodurch unser Modell über verschiedene zeitliche Skalen hinweg einheitlich und äußerst allgemein gültig wird. Als Ergebnis erreichen wir signifikante Verbesserungen gegenüber dem Stand der Technik auf vier unterschiedlichen Datensätzen. Unsere Code- und Modell-Implementierungen sind unter bit.ly/sushi-mot verfügbar.