Multi-Level-Fusion-basierte 3D-Objekterkennung aus monokularen Bildern

In diesem Paper präsentieren wir einen end-to-end tiefen Lernansatz für die 3D-Objekterkennung aus einer einzelnen monokularen Bildaufnahme. Es wird ein tiefes konvolutionales neuronal Netzwerk vorgestellt, das gleichzeitig 2D- und 3D-Objekterkennung ermöglicht. Zunächst werden 2D-Regionvorschläge über ein Region Proposal Network generiert. Anschließend werden gemeinsame Merkmale innerhalb dieser Vorschläge gelernt, um die Klasseneinschätzung, die 2D-Bounding Box, die Orientierung, die Abmessungen sowie die 3D-Position vorherzusagen. Wir verwenden ein eigenständiges Modul zur Vorhersage der Disparität und zur Merkmalsextraktion aus dem berechneten Punktwolkenbild. Dadurch können Merkmale aus dem ursprünglichen Bild und der Punktwolke auf verschiedenen Ebenen gefaltet werden, um eine präzise 3D-Lokalisierung zu ermöglichen. Die geschätzte Disparität wird zudem zur Codierung von Frontalansichtsmerkmalen genutzt, um das Eingabebild zu verbessern – ein Prozess, der als Eingabefusion betrachtet wird. Der vorgeschlagene Algorithmus kann direkt und end-to-end sowohl 2D- als auch 3D-Objekterkennungsergebnisse liefern, wobei lediglich ein einzelnes RGB-Bild als Eingabe erforderlich ist. Die experimentellen Ergebnisse auf der anspruchsvollen KITTI-Benchmark zeigen, dass unser Algorithmus die derzeit besten Methoden bei Verwendung ausschließlich monokularer Bilder erheblich übertrifft.