WeakM3D: Ansätze zur schwach überwachten monokularen 3D-Objekterkennung

Die monokulare 3D-Objekterkennung ist eine der anspruchsvollsten Aufgaben im Bereich der 3D-Szenenanalyse. Aufgrund der schlecht gestellten Natur von monokularen Bildern hängen existierende Methoden zur monokularen 3D-Erkennung stark von der manuellen Annotation von 3D-Boxen auf Lidar-Punktwolken ab. Dieser Annotierungsprozess ist sehr zeitaufwendig und kostspielig. Um die Abhängigkeit von 3D-Boxlabels zu reduzieren, untersuchen wir in diesem Artikel die schwach überwachte monokulare 3D-Erkennung. Insbesondere detektieren wir zunächst 2D-Boxen im Bild. Anschließend verwenden wir die generierten 2D-Boxen, um entsprechende RoI-Lidar-Punkte als schwache Überwachung auszuwählen. Schließlich setzen wir ein Netzwerk ein, um 3D-Boxen vorherzusagen, die eng mit den zugehörigen RoI-Lidar-Punkten übereinstimmen. Dieses Netzwerk wird durch das Minimieren unseres neu vorgeschlagenen 3D-Ausrichtungsverlusts (3D alignment loss) zwischen den geschätzten 3D-Boxen und den entsprechenden RoI-Lidar-Punkten gelernt. Wir werden die potentiellen Herausforderungen des oben beschriebenen Lernproblems darlegen und diese durch Einführung mehrerer effektiver Designelemente in unsere Methode bewältigen. Der Quellcode wird unter https://github.com/SPengLiang/WeakM3D zur Verfügung gestellt.