モバイルシード:モバイルロボットのための合同意味分割と境界検出

鋭い境界の精密かつ迅速な描画と堅牢な意味論的解釈は、ロボットの把持や操作、リアルタイムの意味論的マッピング、エッジコンピューティングユニットで行われるオンラインセンサキャリブレーションなど、多くの下流ロボティクスタスクにおいて不可欠です。境界検出と意味論的セグメンテーションは補完的なタスクであるにもかかわらず、多くの研究では軽量モデルに焦点を当てていますが、境界検出の重要な役割を見落としています。本研究では、同時に行われる意味論的セグメンテーションと境界検出のために設計された軽量二重タスクフレームワーク「Mobile-Seed」を導入します。当フレームワークには、二つのストリームを持つエンコーダー、アクティブフュージョンデコーダー(AFD)、および二重タスク正則化アプローチが特徴的に組み込まれています。エンコーダーは二つのパスに分かれています:一方はカテゴリ認識の意味論的情報を捉え、他方は多尺度特徴から境界を識別します。AFDモジュールはチャンネルごとの関係性を学習することで、意味論的情報と境界情報の融合を動的に適応させることができ、各チャンネルに対する精密な重み付けを可能にします。さらに、我々は正則化損失を導入し、二重タスク学習における衝突と深層多様性監督を緩和しています。既存の方法と比較して、提案するMobile-Seedは軽量なフレームワークでありながら、意味論的セグメンテーション性能の向上と物体境界の正確な位置特定を同時に実現しています。Cityscapesデータセットでの実験結果によると、Mobile-Seedは最新技術(SOTA)ベースラインに対して平均交差率(mIoU)で2.2パーセンテージポイント(pp)、平均F値(mF-score)で4.2 ppの有意な改善を達成しており、RTX 2080 Ti GPU上で1024x2048解像度の入力に対して23.9フレーム毎秒(FPS)というオンライン推論速度を維持しています。CamVidおよびPASCAL Contextデータセットでの追加実験も当手法の汎用性を確認しています。コードおよび追加結果は公開されており、以下のURLからアクセスできます:https://whu-usi3dv.github.io/Mobile-Seed/。