MCBLT: Mehrkameras-Mehrgegenstand-3D-Verfolgung in langen Videos

Die Objekterkennung durch Mehrfachansichtskameras ist für intelligente Systeme von entscheidender Bedeutung, insbesondere in Indoor-Umgebungen wie Lagerräumen, Einzelhandelsläden und Krankenhäusern. Die meisten traditionellen Methoden zur Mehrziel-Erkennung und -Verfolgung mit Mehrfachansichtskameras (MTMC) basieren auf 2D-Objekterkennung, Einzelfeld-Mehrfachobjektverfolgung (MOT) und Cross-View-Re-Identification (ReID)-Techniken, ohne wichtige 3D-Informationen durch die Aggregation von Mehrfachansichten angemessen zu berücksichtigen. In dieser Arbeit schlagen wir einen Framework für 3D-Objekterkennung und -Verfolgung vor, der MCBLT genannt wird. Dieser aggregiert zunächst Mehrfachansichtsbilder unter Verwendung notwendiger Kamerakalibrierungsparameter, um 3D-Objekterkennungen in einer Vogelperspektive (BEV) zu erhalten. Anschließend führen wir hierarchische Graph Neural Networks (GNNs) ein, um diese 3D-Erkennungen in der Vogelperspektive (BEV) für MTMC-Verfolgungsergebnisse zu verfolgen. Im Gegensatz zu bestehenden Methoden zeichnet sich MCBLT durch eine beeindruckende Generalisierungsfähigkeit in verschiedenen Szenarien und bei unterschiedlichen Kamereinstellungen aus, verbunden mit einer außergewöhnlichen Fähigkeit zur langfristigen Zuordnung. Als Ergebnis etabliert unser vorgeschlagener MCBLT einen neuen Stand der Technik im AICity'24-Datensatz mit einem HOTA-Wert von $81{,}22$ und im WildTrack-Datensatz mit einem IDF1-Wert von $95{,}6$.