2ヶ月前
3Dパッキングを用いた自己監督単眼深度推定
Vitor Guizilini; Rares Ambrus; Sudeep Pillai; Allan Raventos; Adrien Gaidon

要約
カメラが普遍的な存在である一方で、ロボットプラットフォームは通常、LiDARなどの能動センサーに依存して直接的な3次元認識を行います。本研究では、幾何学と新しい深層ネットワークであるPackNetを組み合わせた革新的な自己監督型単眼深度推定方法を提案します。この方法は、ラベルの付いていない単眼ビデオからのみ学習します。当社のアーキテクチャは、新たな対称的なパッキングおよびアンパッキングブロックを活用し、3次元畳み込みを使用して詳細を保った表現の圧縮と展開を同時に学習します。自己監督型であるにもかかわらず、当社の方法はKITTIベンチマークにおいて他の自己監督型、半教師あり型、完全教師あり型の手法よりも優れた性能を示しています。PackNetにおける3次元帰納バイアスにより、入力解像度やパラメータ数の増加に対応しながら過学習せずにスケーリングでき、NuScenesデータセットのようなドメイン外データに対する汎化能力も向上しています。さらに、大規模なImageNetでの教師あり事前学習を必要とせず、リアルタイムで動作します。最後に、DDAD(Dense Depth for Automated Driving)という新しい都市走行データセットを公開します。これは世界中で運用されている自動運転車両群に搭載された高密度LiDARから生成された長距離かつ高密度の真値深度データのおかげで、より困難で正確な深度評価が可能なデータセットです。