Multiple Object Tracking als ID-Vorhersage

Die mehrfache Objektverfolgung (Multi-Object Tracking, MOT) stellt seit langem eine herausfordernde Aufgabe im Bereich des Videoverstehens dar. Ein naheliegender und intuitiver Ansatz besteht darin, diese Aufgabe in zwei Teile zu zerlegen: Objekterkennung und Objektassoziierung. Die meisten gängigen Methoden setzen sorgfältig handgefertigte heuristische Techniken ein, um Trajektorieninformationen zu bewahren und Kostenmatrizen für die Objektzuordnung zu berechnen. Obwohl diese Ansätze beachtliche Verfolgungsleistungen erzielen können, erfordern sie oft eine Reihe komplexer, manuell angepasster Modifikationen, insbesondere in anspruchsvollen Szenarien. Wir sind der Ansicht, dass manuell angenommene Vorwissen die Anpassungsfähigkeit und Flexibilität der Methode einschränken, um optimale Verfolgungsfähigkeiten aus datenspezifischen Domänen zu lernen. Daher stellen wir einen neuen Ansatz vor, der die mehrfache Objektverfolgung als ID-Vorhersage im Kontext (in-context ID Prediction) betrachtet und die oben genannte Objektassoziierung in eine end-to-end trainierbare Aufgabe transformiert. Auf dieser Grundlage präsentieren wir eine einfache, aber wirksame Methode namens MOTIP. Gegeben eine Menge von mit ID-Informationen versehenen Trajektorien, decodiert MOTIP direkt die ID-Labels für die aktuellen Detektionen, um den Assoziationsprozess zu vollziehen. Ohne auf speziell angepasste oder komplexe Architekturen zurückzugreifen, erreicht unsere Methode durch ausschließliche Nutzung von objektbasierten Merkmalen als Verfolgungshinweise state-of-the-art Ergebnisse auf mehreren Benchmarks. Die Einfachheit und die beeindruckenden Ergebnisse von MOTIP lassen erheblichen Raum für zukünftige Fortschritte und machen sie somit zu einem vielversprechenden Baseline für nachfolgende Forschungsarbeiten. Unser Code und die Modellcheckpoint sind unter https://github.com/MCG-NJU/MOTIP veröffentlicht.