11日前

BiSeNet V2:リアルタイムセマンティックセグメンテーションのためのガイド付きアグリゲーションを備えたバイラテラルネットワーク

Changqian Yu, Changxin Gao, Jingbo Wang, Gang Yu, Chunhua Shen, Nong Sang
BiSeNet V2:リアルタイムセマンティックセグメンテーションのためのガイド付きアグリゲーションを備えたバイラテラルネットワーク
要約

低レベルの詳細情報と高レベルの意味論的意味は、意味分割タスクにおいて両方とも不可欠である。しかし、モデルの推論速度を向上させるために、現在の多くのアプローチは低レベルの詳細情報を犠牲にしており、これにより顕著な精度の低下が生じている。本研究では、空間的な詳細情報とカテゴリカルな意味情報を別々に扱うことで、リアルタイム意味分割において高い精度と高い効率の両立を実現することを提案する。そのために、速度と精度の間に良好なトレードオフを実現する効率的かつ有効なアーキテクチャ、すなわち「バイラテラルセグメンテーションネットワーク(BiSeNet V2)」を提案する。このアーキテクチャは以下の要素を含む:(i) 広いチャネル数と浅い層構造を持つ「Detail Branch」により、低レベルの詳細情報を捉え、高解像度の特徴表現を生成;(ii) 狭いチャネル数と深い層構造を持つ「Semantic Branch」により、高レベルの意味的文脈を獲得。Semantic Branchはチャネル容量の削減と高速ダウンサンプリング戦略により、軽量化されている。さらに、両種類の特徴表現間の相互接続を強化し、融合するための「ガイド付き集約層(Guided Aggregation Layer)」を設計した。また、追加の推論コストを伴わずに分割性能を向上させる「ブースター学習戦略」も提案している。広範な定量的・定性的評価により、提案アーキテクチャが複数の最先端のリアルタイム意味分割手法と比較しても優れた性能を発揮することが示された。特に、入力サイズ2,048×1,024の場合、NVIDIA GeForce GTX 1080 Ti 1台で156 FPSの処理速度を達成しつつ、Cityscapesテストセットで72.6%のMean IoUを実現した。これは既存の手法と比べて顕著に高速でありながら、より高い分割精度を達成している。

BiSeNet V2:リアルタイムセマンティックセグメンテーションのためのガイド付きアグリゲーションを備えたバイラテラルネットワーク | 最新論文 | HyperAI超神経