11日前

Swin3D:3Dインドアシーン理解のための事前学習済みTransformerバックボーン

Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, Baining Guo
Swin3D:3Dインドアシーン理解のための事前学習済みTransformerバックボーン
要約

2次元視覚および自然言語処理タスクにおいて、事前学習されたバックボーンに微調整(fine-tuning)を適用する手法は、タスク固有のネットワークよりも優れた性能を示しており、成功を収めてきた。本研究では、3次元屋内シーン理解を目的として、事前学習された3次元バックボーン「{\SST}」を提案する。バックボーンネットワークとして、スパースボクセル上で線形メモリ複雑度で効率的な自己注意(self-attention)を実現する3次元Swin変換器を設計した。このアーキテクチャにより、大規模なモデルおよびデータセットへのスケーラビリティが可能となった。さらに、点信号の多様な不規則性を捉えるために、一般化された文脈的相対位置埋め込み(contextual relative positional embedding)スキームを導入し、ネットワークの性能向上を図った。我々は、ScanNetデータセットよりも1桁以上大きい合成データセット「Structured3D」を用いて、大規模な{\SST}モデルを事前学習した。この合成データセットで事前学習されたモデルは、実際の3次元点群データセットにおける下流タスク(セグメンテーションおよび検出)へ良好に一般化するだけでなく、最先端手法を上回る性能を示した。具体的には、S3DIS Area5および6-foldセマンティックセグメンテーションにおいて、それぞれ+2.3 mIoUおよび+2.2 mIoUの向上を達成し、ScanNetセグメンテーション(val)では+1.8 mIoU、ScanNet検出では+1.9 [email protected]、S3DIS検出では+8.1 [email protected]の改善が確認された。さらに、多数の体系的なアブレーションスタディにより、本手法が持つスケーラビリティ、汎用性、および優れた性能が裏付けられた。コードおよびモデルは、https://github.com/microsoft/Swin3D にて公開されている。

Swin3D:3Dインドアシーン理解のための事前学習済みTransformerバックボーン | 最新論文 | HyperAI超神経