8ヶ月前

概要

3Dセマンティックシーンコンプリーション（SSC）は、自律走行における新たな重要な課題として注目を集めています。この技術の目的は、ボリュームシーン内のボクセル占有を予測することです。しかし、現行の手法は主にボクセル単位での特徴量集約に焦点を当てており、インスタンスセマンティクスやシーンコンテキストを軽視しています。本論文では、インスタンスクエリの統合により2Dから3Dへの再構成と3Dシーンモデリングを行う新しいパラダイム「シンフォニーズ（Scene-from-Insts）」を提案します。提案するシリアルインスタンス伝播アテンションを活用することで、シンフォニーズは動的にインスタンス中心のセマンティクスを符号化し、画像ベースとボリュームドメイン間の複雑な相互作用を促進します。同時に、インスタンスクエリの効率的な融合を通じてコンテキストを捉えることで全体的なシーン理解を可能にし、オクルージョンや透視誤差などの幾何学的曖昧性をコンテキストに基づくシーン推論によって軽減します。実験結果は、シンフォニーズがSemanticKITTIおよびSSCBench-KITTI-360という難易度の高いベンチマークで最先端の性能を達成していることを示しており、それぞれmIoUスコアが15.04と18.58となっています。これらの結果は、パラダイムが有望な進歩を遂げていることを示しています。コードは以下のURLから入手可能です: https://github.com/hustvl/Symphonies.

ソースPDF コードを表示