Mehrere Objektvorhersage: Die Prognose zukünftiger Objektstandorte in unterschiedlichen Umgebungen

Dieses Papier stellt das Problem der Mehrfachobjektvorhersage (Multiple Object Forecasting, MOF) vor, bei dem das Ziel besteht, die zukünftigen Begrenzungsrahmen von verfolgten Objekten zu prognostizieren. Im Gegensatz zu bisherigen Arbeiten zur Vorhersage von Objekttrajektorien, die das Problem hauptsächlich aus einer Vogelperspektive betrachten, formulieren wir das Problem aus einer objektorientierten Perspektive und fordern die Vorhersage vollständiger Objekt-Begrenzungsrahmen, nicht nur von Trajektorien. Um diese Aufgabe zu lösen, stellen wir den Citywalks-Datensatz vor, der über 200.000 hochaufgelöste Videobilder enthält. Citywalks umfasst Aufnahmen aus 21 Städten in zehn europäischen Ländern unter verschiedenen Wetterbedingungen und mehr als 3.500 einzigartige Fußgängertrajektorien. Für die Bewertung passen wir existierende Methoden zur Trajektorienprognose für MOF an und bestätigen die Übertragbarkeit auf den MOT-17-Datensatz ohne Feinabstimmung. Schließlich präsentieren wir STED, eine neuartige Encoder-Decoder-Architektur für MOF. STED kombiniert visuelle und zeitliche Merkmale, um sowohl Objektbewegung als auch Ego-Bewegung zu modellieren, und übertrifft dabei bestehende Ansätze für MOF. Code & Datensatz-Link:https://github.com/olly-styles/Multiple-Object-Forecasting