Command Palette
Search for a command to run...
RoadFormer+: スケール認識情報の分離と高度な異種特徴量融合によるRGB-Xシーン解析の実現
RoadFormer+: スケール認識情報の分離と高度な異種特徴量融合によるRGB-Xシーン解析の実現
Jianxin Huang, Student Member, IEEE, Jiahang Li, Graduate Student Member, IEEE, Ning Jia, Yuxiang Sun, Chengju Liu, Qijun Chen, Senior Member, IEEE, and Rui Fan, Senior Member, IEEE
概要
タスク固有のデータ融合ネットワークは、都市シーン解析において著しい成果を上げています。これらのネットワークの中で、最近提案したRoadFormerはRGB画像と表面法線マップから異種の特徴量を抽出し、注意機構を通じてこれらの特徴量を融合することで、RGB-Normal道路シーン解析において強力な効果を示しました。しかし、他のタイプやソースのデータを処理する場合や、より普遍的な全カテゴリシーン解析タスクを行う際には、その性能が大幅に低下します。この制限を克服するために、本研究では効率的で堅牢かつ適応性のあるモデルであるRoadFormer+を導入します。このモデルはRGB-Xデータ(ここで「X」は深度、熱赤外線、表面法線、偏光などの追加のデータタイプまたはモダリティを表す)を効果的に融合することができます。具体的には、新しいハイブリッド特徴量分離エンコーダーを提案し、異種の特徴量を抽出してグローバル成分とローカル成分に分離します。これらの分離された特徴量は次に、並列トランスフォーマー注意機構と畳み込みニューラルネットワークモジュールを使用して異なるスケールと受容野の多スケール特徴量を統合する双方向多スケール異種特徴量融合ブロックを通じて融合されます。融合された特徴量はその後、デコーダーに入力され最終的な意味予測が生成されます。特に提案したRoadFormer+はKITTI Roadベンチマークで1位となり、Cityscapes, MFNet, FMB, ZJUデータセットにおける平均交差率(mean intersection over union)で最先端の性能を達成しています。さらにRoadFormerと比較して学習可能なパラメータ数が65%削減されています。当方のソースコードはmias.group/RoadFormerPlusにて公開される予定です。