11日前
2Dセグメンテーション事前情報を用いたデータ拡張による3次元セマンティックシーンコンプリート
Aloisio Dourado, Frederico Guth, Teofilo de Campos

要約
意味的シーン補完(Semantic Scene Completion: SSC)は、ロボティクスから補助コンピューティングまで、多くの実用的応用を持つ挑戦的なコンピュータビジョン課題である。その目的は、シーンの視野内における3次元幾何構造とボクセルの意味的ラベル(遮蔽領域を含む)を推定することにある。本研究では、RGB-D画像の深度成分から得られる構造情報と、2次元セグメンテーションネットワークによる二モーダルな意味的事前知識をシームレスに統合する、新規の軽量なマルチモーダル3次元深層CNN「SPAwN」を提案する。この分野における重要な課題の一つは、現在のデータ集約型深層3次元CNNを訓練するのに十分な規模で、完全にラベル付けされた実世界3次元データセットが不足している点である。2次元コンピュータビジョンタスクでは、CNNの汎化能力を向上させるために多数のデータ拡張戦略が提案されてきた。しかし、これらの手法はSSCソリューションにおけるRGB-D入力と出力ボリュームに直接適用することはできない。本論文では、マルチモーダルSSCネットワークに適用可能な3次元データ拡張戦略の導入を提案する。我々の貢献は、包括的かつ再現可能なアブレーションスタディを通じて検証されている。提案手法は、類似した複雑さを持つ従来手法を一貫して上回る性能を発揮する。