Verbesserung der multimodalen Fußgängerdetektion durch verallgemeinerte 3D-Feature-Extraktion

Die zentrale Herausforderung bei der Multi-View-Personenerkennung besteht darin, sichtspezifische Merkmale in einen einheitlichen Raum zu integrieren, um eine umfassende end-to-end-Wahrnehmung zu ermöglichen. Bisherige Ansätze zur Multi-View-Erkennung haben sich darauf konzentriert, perspektivische Merkmale auf die Erdoberfläche abzubilden und so eine „Bird’s Eye View“ (BEV)-Darstellung der Szene zu erzeugen. In dieser Arbeit wird eine einfache, aber effektive Architektur vorgestellt, die eine nicht-parametrische 3D-Merkmals-Ausziehung (feature-pulling)-Strategie nutzt. Diese Strategie extrahiert direkt die entsprechenden 2D-Merkmale für jeden gültigen Voxel innerhalb des 3D-Merkmalsvolumens und löst so das Problem des Merkmalsverlusts, das bei früheren Methoden auftreten konnte. Der vorgeschlagene Rahmen führt drei neuartige Module ein, die jeweils darauf abzielen, die Generalisierungsfähigkeit von Multi-View-Erkennungssystemen zu verbessern. Durch umfangreiche Experimente wird die Wirksamkeit des vorgeschlagenen Modells nachgewiesen. Die Ergebnisse zeigen eine neue State-of-the-Art-Genauigkeit, sowohl in herkömmlichen Szenarien als auch insbesondere im Kontext von Benchmarks zur Szenen-Generalisierung.