2ヶ月前

VoxFormer: カメラベースの3次元セマンティックシーンコンプリーションのためのスパースボクセルトランスフォーマー

Li, Yiming ; Yu, Zhiding ; Choy, Christopher ; Xiao, Chaowei ; Alvarez, Jose M. ; Fidler, Sanja ; Feng, Chen ; Anandkumar, Anima
VoxFormer: カメラベースの3次元セマンティックシーンコンプリーションのためのスパースボクセルトランスフォーマー
要約

人間は、隠れた物体やシーンの完全な3次元幾何学を容易に想像することができます。この魅力的な能力は認識と理解において不可欠です。AIシステムにこのような能力を持たせるために、我々はVoxFormer(ボクスフォーマー)を提案します。これは、2次元画像から完全な3次元ボリュームセマンティクスを出力できるTransformerベースの意味的シーン補完フレームワークです。本フレームワークは2段階設計を採用しており、まず深度推定から可視かつ占有されたスパースなボクセルクエリの集合を生成し、その後、これらのスパースなボクセルから密な3次元ボクセルを生成する密化段階が続きます。この設計の重要なアイデアは、2次元画像上の視覚特徴が可視のシーン構造に対応し、隠れたまたは空の空間には対応しないことです。したがって、可視構造の特徴化と予測から始めることはより信頼性が高いと言えます。スパースなクエリセットを得たら、マスク付きオートエンコーダー設計を使用して自己注意によって情報をすべてのボク塞尔に伝播させます。SemanticKITTIでの実験結果によると、VoxFormerは幾何学的に20.0%、意味的に18.1%という相対的な改善率で現行の最先端技術を上回り、訓練時のGPUメモリー使用量も16GB未満に削減しています。当社のコードは https://github.com/NVlabs/VoxFormer で公開されています。注:「ボクセル」(voxel)は3次元画素(pixel)のことです。

VoxFormer: カメラベースの3次元セマンティックシーンコンプリーションのためのスパースボクセルトランスフォーマー | 最新論文 | HyperAI超神経