状態空間モデルがTransformerに出会う:3Dオブジェクト検出のための新たなパラダイム

3Dインテリアオブジェクト検出において、マルチレイヤートランスフォーマー・デコーダを用いてオブジェクトクエリを反復的に精緻化するDETRベースの手法は、有望な性能を示している。しかし、トランスフォーマー・デコーダ内のシーンポイント特徴は固定されたままとなるため、後段のデコーダ層からの貢献が限定的となり、性能向上が制限される問題がある。近年、状態空間モデル(State Space Models: SSM)は、システム状態と入力との反復的相互作用を通じて線形計算量で効率的な文脈モデリングが可能であることが示されている。このSSMの特性に着目し、本研究では、インタラクティブな状態空間モデル(interactive STate space model: DEST)を用いた新たな3Dオブジェクト検出フレームワークを提案する。DESTでは、システム状態が3Dインテリア検出タスクにおけるクエリとして効果的に機能できるように、新たな状態依存型SSMパラメータ化手法を設計した。さらに、点群データおよびSSMの特性に特化した4つの重要な設計を導入している。すなわち、点群のシリアライズ化と双方向スキャン戦略により、SSM内でのシーンポイント間の双方向特徴相互作用を実現。状態ポイント間の関係をモデル化するためのインタラクティブ・アテンション機構、およびチャネル間相関を強化するゲート付きフィードフォワードネットワークを採用している。本研究において、クエリをシステム状態として、シーンポイントをシステム入力としてモデル化するというアプローチは、知られている限りでは初めてである。このアプローチにより、シーンポイント特徴とクエリ特徴を線形計算量で同時に更新することが可能となる。2つの挑戦的なデータセットにおける広範な実験により、DESTに基づく手法の有効性が実証された。ScanNet V2データセットではGroupFreeベースラインに対してAP50で+5.3の向上を達成し、SUN RGB-Dデータセットでは+3.2の向上を示した。また、VDETRベースラインに基づく場合、ScanNet V2およびSUN RGB-Dの両データセットで新たなSOTA(最先端)性能を達成した。