HyperAIHyperAI
vor 11 Tagen

BEVDet4D: Temporale Hinweise in der Mehrkamera-3D-Objekterkennung ausnutzen

Junjie Huang, Guan Huang
BEVDet4D: Temporale Hinweise in der Mehrkamera-3D-Objekterkennung ausnutzen
Abstract

Einzelbilder enthalten nur endliche Informationen, was die Leistungsfähigkeit bestehender visionbasierter Mehrkamera-3D-Objekterkennungsparadigmen einschränkt. Um die Leistungsgrenze in diesem Bereich grundlegend zu erweitern, wird ein neuartiges Paradigma namens BEVDet4D vorgestellt, das das skalierbare BEVDet-Paradigma von einem rein räumlichen 3D-Raum in einen räumlich-zeitlichen 4D-Raum erweitert. Durch einige gezielte Modifikationen wird das einfache BEVDet-Framework dahingehend verbessert, dass Merkmale aus dem vorherigen Frame mit den entsprechenden Merkmalen des aktuellen Frames gefaltet werden können. Auf diese Weise ermöglicht BEVDet4D, mit vernachlässigbarem zusätzlichen Rechenaufwand, die Nutzung zeitlicher Hinweise durch Abfragen und Vergleichen zweier Kandidatmerkmale. Darüber hinaus wird die Aufgabe der Geschwindigkeitsvorhersage vereinfacht, indem ego-motion und Zeit aus dem Lernziel eliminiert werden. Dadurch reduziert BEVDet4D mit robuster Verallgemeinerungsfähigkeit die Geschwindigkeitsfehler um bis zu -62,9 %. Damit werden visionbasierte Methoden erstmals in diesem Aspekt mit Methoden vergleichbar, die auf LiDAR oder Radar basieren. Auf dem anspruchsvollen Benchmark nuScenes erreicht BEVDet4D-Base, die hochleistungsfähige Konfiguration, einen neuen Rekord von 54,5 % NDS und übertrifft damit die vorherige führende Methode BEVDet-Base um +7,3 % NDS. Der Quellcode ist für weitere Forschung öffentlich verfügbar unter https://github.com/HuangJunJie2017/BEVDet.

BEVDet4D: Temporale Hinweise in der Mehrkamera-3D-Objekterkennung ausnutzen | Neueste Forschungsarbeiten | HyperAI