2ヶ月前
リアルタイムセマンティックセグメンテーションのためのBiSeNetの再考
Fan, Mingyuan ; Lai, Shenqi ; Huang, Junshi ; Wei, Xiaoming ; Chai, Zhenhua ; Luo, Junfeng ; Wei, Xiaolin

要約
BiSeNetは、リアルタイムセグメンテーションのための人気のある二つのストリームを持つネットワークとして証明されています。しかし、空間情報を符号化するために追加のパスを導入するというその原理は時間のかかるものであり、事前学習されたタスク(例えば画像分類)から借用したバックボーンが、タスク固有の設計の欠如により画像セグメンテーションに非効率的である可能性があります。これらの問題に対処するため、我々は構造的な冗長性を除去することで新しいかつ効率的な構造であるShort-Term Dense Concatenateネットワーク(STDCネットワーク)を提案します。具体的には、特徴マップの次元を段階的に削減し、それらの集約を使用して画像表現を行うことで、STDCネットワークの基本モジュールを形成します。デコーダーでは、単一ストリーム方式で低レベル層に空間情報の学習を統合するDetail Aggregationモジュールを提案します。最後に、低レベルの特徴と深層特徴を融合して最終的なセグメンテーション結果を予測します。CityscapesおよびCamVidデータセットにおける広範な実験により、我々の手法がセグメンテーション精度と推論速度との間で有望なトレードオフを達成し、その有効性が示されました。Cityscapesにおいては、NVIDIA GTX 1080Ti上でテストセットで71.9% mIoU(平均交差ユニオン)を達成し、250.4 FPS(フレーム毎秒)という速度で推論を行いました。これは最新手法よりも45.2%高速です。さらに高解像度画像での推論では、97.0 FPSで76.8% mIoUを達成しました。