RoadFormer+: スケール認識情報の分離と高度な異種特徴量融合によるRGB-Xシーン解析の実現

タスク固有のデータ融合ネットワークは、都市シーン解析において著しい成果を上げています。これらのネットワークの中で、最近提案したRoadFormerはRGB画像と表面法線マップから異種の特徴量を抽出し、注意機構を通じてこれらの特徴量を融合することで、RGB-Normal道路シーン解析において強力な効果を示しました。しかし、他のタイプやソースのデータを処理する場合や、より普遍的な全カテゴリシーン解析タスクを行う際には、その性能が大幅に低下します。この制限を克服するために、本研究では効率的で堅牢かつ適応性のあるモデルであるRoadFormer+を導入します。このモデルはRGB-Xデータ(ここで「X」は深度、熱赤外線、表面法線、偏光などの追加のデータタイプまたはモダリティを表す)を効果的に融合することができます。具体的には、新しいハイブリッド特徴量分離エンコーダーを提案し、異種の特徴量を抽出してグローバル成分とローカル成分に分離します。これらの分離された特徴量は次に、並列トランスフォーマー注意機構と畳み込みニューラルネットワークモジュールを使用して異なるスケールと受容野の多スケール特徴量を統合する双方向多スケール異種特徴量融合ブロックを通じて融合されます。融合された特徴量はその後、デコーダーに入力され最終的な意味予測が生成されます。特に提案したRoadFormer+はKITTI Roadベンチマークで1位となり、Cityscapes, MFNet, FMB, ZJUデータセットにおける平均交差率(mean intersection over union)で最先端の性能を達成しています。さらにRoadFormerと比較して学習可能なパラメータ数が65%削減されています。当方のソースコードはmias.group/RoadFormerPlusにて公開される予定です。