MOTS: Mehrfachobjektverfolgung und -segmentierung

Dieses Papier erweitert die weit verbreitete Aufgabe des Multi-Objekt-Trackings auf Multi-Objekt-Tracking und Segmentierung (MOTS). Um dieses Ziel zu erreichen, erstellen wir dichte Pixel-Level-Annotierungen für zwei bestehende Tracking-Datensätze mithilfe eines halbautomatischen Annotierungsverfahrens. Unsere neuen Annotierungen umfassen 65.213 Pixelmasken für 977 verschiedene Objekte (Fahrzeuge und Fußgänger) in 10.870 Videoframes. Für die Bewertung erweitern wir existierende Multi-Objekt-Tracking-Metriken auf diese neue Aufgabe. Darüber hinaus schlagen wir eine neue Baseline-Methode vor, die Detektion, Tracking und Segmentierung mit einem einzigen Faltungsnetzwerk gemeinsam bearbeitet. Wir demonstrieren den Wert unserer Datensätze durch Leistungsverbesserungen beim Training mit MOTS-Annotierungen. Wir glauben, dass unsere Datensätze, Metriken und Baseline eine wertvolle Ressource darstellen werden, um Multi-Objekt-Tracking-Ansätze zu entwickeln, die über 2D-Bounding Boxes hinausgehen. Unsere Annotierungen, Code und Modelle sind unter https://www.vision.rwth-aachen.de/page/mots verfügbar.