2ヶ月前

コンテキストと幾何学に配慮したボクセルトランスフォーマーによるセマンティックシーン補完

Yu, Zhu ; Zhang, Runmin ; Ying, Jiacheng ; Yu, Junchen ; Hu, Xiaohai ; Luo, Lun ; Cao, Si-Yuan ; Shen, Hui-Liang

要約

視覚に基づく意味的なシーン補完（Semantic Scene Completion: SSC）は、さまざまな3D認識タスクでの広範な応用により注目を集めています。既存の疎から密へのアプローチでは、通常、異なる入力画像に対して共有されるコンテキストに依存しないクエリが使用されています。これにより、異なる入力の焦点領域が変動するため、それらの違いを捉えられず、クロスアテンションによる無指向性の特徴量集約が発生する可能性があります。また、深度情報の欠如により、画像平面上に投影された点が同じ2D位置や類似したサンプリング点を持つことになり、深度の曖昧さが生じる可能性があります。本論文では、新しいコンテキストと幾何学に-awareなボクセルトランスフォーマーを提案します。このトランスフォーマーは、コンテキスト-awareなクエリジェネレーターを使用して、各入力画像に合わせたコンテキスト依存型クエリを初期化し、その固有の特性を効果的に捉えつつ、関心領域内の情報を集約します。さらに、2Dピクセル空間から3Dピクセル空間へとデフォーム可能なクロスアテンションを拡張することで、類似した画像座標を持つ点を深度座標に基づいて区別することが可能になります。このモジュールを基盤として、我々はCGFormerという名前のニューラルネットワークを導入し、意味的なシーン補完を達成します。CGFormerは、複数の3D表現（すなわちボクセルとTPV）を利用することで、変換された3D体積の意味的および幾何学的表現能力を局所的および全体的な観点から向上させます。実験結果は、CGFormerがSemanticKITTIおよびSSCBench-KITTI-360ベンチマークにおいて最先端の性能を達成していることを示しており、mIoUで16.87と20.05、IoUで45.99と48.07という値を得ています。特に注目に値するのは、CGFormerが時間系列画像や大規模な画像バックボーンネットワークを使用する手法よりも優れた性能を発揮していることです。