Frustum ConvNet: Verschiebende Frustume zur Aggregation lokaler punktbasierter Merkmale für amodale 3D-Objekterkennung

In dieser Arbeit schlagen wir eine neuartige Methode vor, die als \emph{Frustum ConvNet (F-ConvNet)} bezeichnet wird, für die amodale 3D-Objekterkennung aus Punktwolken. Angesichts von 2D-Regionenvorschlägen in einem RGB-Bild generiert unsere Methode zunächst für jeden Regionenvorschlag eine Reihe von Frustums und verwendet die erhaltenen Frustums, um lokale Punkte zu gruppieren. F-ConvNet aggregiert punktweise Merkmale zu Frustum-Level-Merkmalsvektoren und ordnet diese Merkmalsvektoren als Merkmalskarte an, die von der nachfolgenden Komponente des vollständig konvolutionellen Netzes (Fully Convolutional Network, FCN) verwendet wird. Diese FCN-Komponente führt eine räumliche Fusion der Frustum-Level-Merkmale durch und ermöglicht eine end-to-end und kontinuierliche Schätzung orientierter Boxen im 3D-Raum. Wir schlagen auch verschiedene Komponentenvarianten von F-ConvNet vor, darunter eine FCN-Variante, die mehrskalige Frustum-Merkmale extrahiert, sowie eine verfeinerte Anwendung von F-ConvNet in einem reduzierten 3D-Raum. Sorgfältige Abstraktionsstudien bestätigen die Effektivität dieser Komponentenvarianten. F-ConvNet setzt keine vorherige Kenntnis des arbeitenden 3D-Umfelds voraus und ist daher datensatzunabhängig. Wir präsentieren Experimente sowohl auf dem Indoor-Datensatz SUN-RGBD als auch auf dem Outdoor-Datensatz KITTI. F-ConvNet übertrifft alle existierenden Methoden auf SUN-RGBD und zum Zeitpunkt der Einreichung alle veröffentlichten Arbeiten auf dem KITTI-Benchmark. Der Quellcode ist unter folgender URL verfügbar: {\url{https://github.com/zhixinwang/frustum-convnet}}.