HyperAIHyperAI
vor 11 Tagen

BEVStereo: Verbesserung der Tiefenschätzung in der Multiview-3D-Objekterkennung mit dynamischem zeitlichem Stereo

Yinhao Li, Han Bao, Zheng Ge, Jinrong Yang, Jianjian Sun, Zeming Li
BEVStereo: Verbesserung der Tiefenschätzung in der Multiview-3D-Objekterkennung mit dynamischem zeitlichem Stereo
Abstract

Eingeschränkt durch die inhärente Mehrdeutigkeit der Tiefenwahrnehmung geraten moderne, kamerabasierte Methoden zur 3D-Objekterkennung an eine Leistungsgrenze. Intuitiv bietet sich die Nutzung der zeitlichen Mehrseiten-Stereotechnologie (temporal Multi-View Stereo, MVS) als natürliche Lösung zur Bewältigung dieser Mehrdeutigkeit an. Allerdings weisen traditionelle Ansätze zur MVS in zwei Aspekten gravierende Schwächen auf, wenn sie auf Szenen der 3D-Objekterkennung angewendet werden: 1) Die Affinitätsmessung zwischen allen Ansichten erfordert einen hohen Rechenaufwand; 2) Es ist schwierig, externe Umgebungen zu bewältigen, in denen Objekte häufig bewegt sind. Um diesem Problem zu begegnen, stellen wir eine effektive zeitliche Stereo-Methode vor, die die Skala der Abgleichkandidaten dynamisch auswählt und somit den Rechenaufwand erheblich reduziert. Weitergehend entwerfen wir einen iterativen Algorithmus, um wertvollere Kandidaten zu aktualisieren, wodurch die Methode adaptiv gegenüber beweglichen Objekten wird. Wir implementieren unsere vorgeschlagene Methode in einen mehrseitigen 3D-Detektor, den wir BEVStereo nennen. BEVStereo erreicht auf dem rein kamerabasierten Track des nuScenes-Datensatzes eine neue SOTA-Leistung (52,5 % mAP und 61,0 % NDS). Zudem zeigen umfangreiche Experimente, dass unsere Methode komplexe externe Szenarien besser bewältigt als aktuelle MVS-Ansätze. Der Quellcode ist unter https://github.com/Megvii-BaseDetection/BEVStereo veröffentlicht.

BEVStereo: Verbesserung der Tiefenschätzung in der Multiview-3D-Objekterkennung mit dynamischem zeitlichem Stereo | Neueste Forschungsarbeiten | HyperAI