深層二重解像度ネットワークによる道路シーンのリアルタイムかつ高精度な意味分割

セマンティックセグメンテーションは、自動車の自律走行において周囲のシーンを理解するための重要な技術です。現代のモデルが優れた性能を発揮する一方で、その多くは重い計算処理と長い推論時間が必要となり、これは自動運転には許容できません。最近の手法では、軽量なアーキテクチャ(エンコーダー-デコーダーまたは双方向パス)を使用したり、低解像度画像での推論を行ったりすることで、非常に高速なシーン解析を実現しています。単一の1080Ti GPU上で100 FPSを超える速度で動作することもあります。しかし、これらのリアルタイム手法と希薄化バックボーンに基づくモデルとの間には、まだ著しい性能差があります。この問題に対処するために、我々はリアルタイムセマンティックセグメンテーションに特化した効率的なバックボーン群を開発しました。提案された深層双解像度ネットワーク(Deep Dual-Resolution Networks: DDRNets)は、複数回の双方向融合を行う2つの深層ブランチから構成されています。さらに、我々は低解像度特徴マップに基づいて有効受容野を拡大し、多尺度コンテキストを融合する新しいコンテキスト情報抽出器である深層集約ピラミッドプーリングモジュール(Deep Aggregation Pyramid Pooling Module: DAPPM)を設計しました。本手法はCityscapesデータセットおよびCamVidデータセットにおいて精度と速度の新たな最先端トレードオフを達成しています。特に単一の2080Ti GPU上では、DDRNet-23-slimがCityscapesテストセットで77.4% mIoU(平均交差率)を102 FPSで達成し、CamVidテストセットでは74.7% mIoUを230 FPSで達成しています。一般的に使用されるテスト拡張を使用した場合でも、本手法は多くの最先端モデルよりも優れており、大幅に少ない計算量で動作します。コードと学習済みモデルはオンラインで公開されています。