2ヶ月前
AsymFormer: 移動プラットフォーム向けリアルタイムRGB-Dセマンティックセグメンテーションの非対称クロスモーダル表現学習
Siqi Du; Weixi Wang; Renzhong Guo; Ruisheng Wang; Yibin Tian; Shengjun Tang

要約
室内シーンの理解は都市研究において重要です。室内環境の動的な性質を考慮すると、効果的な意味分割にはリアルタイムでの動作と高い精度が求められます。この課題に対処するため、我々はAsymFormerという新しいネットワークを提案します。AsymFormerはRGB-Dマルチモーダル情報を用いて、ネットワークの複雑さを大幅に増やさずにリアルタイムの意味分割精度を向上させます。AsymFormerは、マルチモーダル特徴量抽出のために非対称的なバックボーンを使用し、計算リソースの配分を最適化することで冗長なパラメータを削減します。非対称的なマルチモーダル特徴量を融合するために、Local Attention-Guided Feature Selection (LAFS) モジュールが使用され、異なるモーダルからの特徴量を選択的に融合します。その後、Cross-Modal Attention-Guided Feature Correlation Embedding (CMA) モジュールが導入され、さらにクロスモーダル表現を抽出します。AsymFormerはNYUv2データセットで54.1% mIoU、SUNRGBDデータセットで49.1% mIoUという競争力のある結果を示しています。特に注目に値するのは、AsymFormerがRTX3090上で65 FPS(混合精度量子化実装後は79 FPS)の推論速度を達成しており、高精度と効率性のバランスを取り得ていることを示しています。