11日前

最終層を越えて:エージェント補間初期化を用いた階層的クエリ統合Transformerによる3Dインスタンスセグメンテーション

Jiahao Lu, Jiacheng Deng, Tianzhu Zhang
最終層を越えて:エージェント補間初期化を用いた階層的クエリ統合Transformerによる3Dインスタンスセグメンテーション
要約

3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスの集合を予測し、対応する意味ラベルを持つバイナリフォアグラウンドマスクとして表現することを目的としている。現在、幾何学的特性の手動選定を低減し、洗練されたパイプラインと優れた性能を実現する点から、Transformerベースの手法が注目を集めている。しかし、Transformerベースの手法は、クエリ初期化段階で位置情報とコンテンツ情報の両方を同時に強固に保持できないという課題を抱えている。さらに、各デコーダ層で監視が行われるため、層の深さが増すにつれてオブジェクトの消失現象が生じる問題も存在する。これらの課題を克服するため、本研究では「最終層を超えて:エージェント補間初期化を用いた階層的クエリ統合Transformer(BFL)」を提案する。具体的には、フォアグラウンドカバレッジとコンテンツ学習のバランスを実現可能な耐障害性の高いクエリを生成するための「エージェント補間初期化モジュール」を設計した。また、層の深さに伴うリコール低下を緩和するため、低重複クエリを保持する「階層的クエリ統合デコーダ」を提案している。ScanNetV2、ScanNet200、ScanNet++、S3DISの4つのデータセットにおける広範な実験により、BFLが優れた性能を発揮することが実証された。

最終層を越えて:エージェント補間初期化を用いた階層的クエリ統合Transformerによる3Dインスタンスセグメンテーション | 最新論文 | HyperAI超神経