EarlyBird: Frühe Fusion für die Mehrsichtverfolgung in der Vogelperspektive

Die Mehransichtsaggregation verspricht, die Herausforderungen der Verdeckung und des nicht erkannten Objekts in der Mehrobjekterkennung und -verfolgung zu überwinden. Aktuelle Ansätze in der Mehransichtserkennung und der 3D-Objekterkennung haben durch die Projektion aller Ansichten auf die Bodenebene einen großen Leistungssprung erzielt und die Erkennung in der Vogelperspektive (Bird's Eye View, BEV) durchgeführt. In dieser Arbeit untersuchen wir, ob die Verfolgung in der BEV auch den nächsten Leistungssprung in der Mehrziel-Mehrkamera-Verfolgung (Multi-Target Multi-Camera, MTMC) bringen kann. Die meisten aktuellen Ansätze zur Mehransichtsverfolgung führen die Erkennungs- und Verfolgungsaufgabe in jeder Ansicht durch und verwenden graphenbasierte Methoden, um die Zuordnung von Fußgängern zwischen den einzelnen Ansichten zu realisieren. Diese räumliche Zuordnung ist bereits gelöst, indem jeder Fußgänger einmal in der BEV erkannt wird, so dass nur noch das Problem der zeitlichen Zuordnung besteht. Für die zeitliche Zuordnung zeigen wir, wie man starke Wiedererkennungsmerkmale (Re-Identification, re-ID) für jede Erkennung lernen kann. Die Ergebnisse demonstrieren, dass eine frühe Fusion in der BEV sowohl für die Erkennung als auch für die Verfolgung eine hohe Genauigkeit erreicht. EarlyBird übertreffen dabei die bislang besten Methoden und verbessern den aktuellen Stand der Technik auf Wildtrack um +4,6 MOTA und +5,6 IDF1.