Time Will Tell: Neue Perspektiven und eine Baseline für die zeitliche Multi-View-3D-Objekterkennung

Obwohl neuere, kamerabasierte Methoden zur 3D-Detektion mehrere Zeitschritte nutzen, beschränkt sich die verwendete Historie erheblich und hemmt somit die Verbesserung der Objektwahrnehmung durch zeitliche Fusion. Da wir beobachten, dass die bisherigen Ansätze zur Fusion mehrerer Bildframes lediglich eine Form der zeitlichen Stereoabgleichung darstellen, stellen wir fest, dass die Leistung durch die Wechselwirkung von zwei Faktoren beeinträchtigt wird: erstens durch die geringe Granularität der Abgleichauflösung und zweitens durch die suboptimalen Mehransichtskonfigurationen, die durch die begrenzte Nutzung der Historie entstehen. Unsere theoretische und empirische Analyse zeigt, dass die optimale zeitliche Distanz zwischen Ansichten für verschiedene Pixel und Tiefenwerte erheblich variiert, was eine Fusion vieler Zeitschritte über eine lange Historie erfordert. Aufbauend auf unseren Erkenntnissen schlagen wir vor, einen Cost-Volumen aus einer langen Historie von Bildbeobachtungen zu generieren, wodurch die grobe, jedoch effiziente Abgleichauflösung durch eine optimiertere Mehransichtsabgleichkonfiguration kompensiert wird. Zudem ergänzen wir die für die langfristige, grobe Abgleichung verwendeten monokularen Tiefenabschätzungen durch eine kurzfristige, fein granulare Abgleichung und stellen fest, dass die lang- und kurzfristige zeitliche Fusion sich äußerst ergänzend verhalten. Ohne die Effizienz zu beeinträchtigen, erreicht unser Ansatz auf dem nuScenes-Datensatz eine neue State-of-the-Art-Leistung, erzielt Platz eins auf dem Testset und übertrifft die bisher beste Methode um 5,2 % mAP und 3,7 % NDS auf dem Validierungsset. Der Quellcode wird unter $\href{https://github.com/Divadi/SOLOFusion}{hier}$ veröffentlicht.