YOLOStereo3D: Ein Schritt zurück zu 2D für effiziente stereo-3D-Detektion

Die Objekterkennung in 3D mit Stereo-Kameras ist ein wichtiges Problem im Bereich der Computer Vision und besonders entscheidend für kostengünstige autonome mobile Roboter ohne LiDAR-Sensoren.Heutzutage basieren die meisten leistungsfähigsten Frameworks für die Stereo-3D-Objekterkennung auf einer dichten Tiefenrekonstruktion durch Disparitätsschätzung, was sie extrem rechenintensiv macht.Um eine praktische Anwendung der visuellen Erkennung mit binökalen Bildern zu ermöglichen, greifen wir zurück auf Erkenntnisse aus 2D-bildbasierten Detektionsframeworks und erweitern diese um stereo-spezifische Merkmale.Wir integrieren Wissen und die Inferenzstruktur eines Echtzeit-Einstufigen 2D/3D-Objektdetektors und führen ein leichtgewichtiges Stereo-Matching-Modul ein.Unser vorgeschlagenes Framework, YOLOStereo3D, wird auf einem einzelnen GPU trainiert und läuft mit mehr als zehn Bildern pro Sekunde (fps). Es zeigt eine Leistung, die vergleichbar ist mit den besten aktuellen Stereo-3D-Detektionsframeworks, ohne LiDAR-Daten zu verwenden.Der Code wird veröffentlicht unter https://github.com/Owen-Liuyuxuan/visualDet3D.