要約
セマンティックセグメンテーションは、インテリジェントビークル(IV)における認識ニーズの多くを統合的に扱う挑戦的なタスクである。深層ニューラルネットワーク(DNN)は、画像内のピクセル単位で複数のオブジェクトカテゴリを正確に分類できるように、エンドツーエンドで学習可能な点でこのタスクにおいて優れた性能を発揮する。しかし、最新のセマンティックセグメンテーション手法においては、高精度と計算リソースの間の良好なトレードオフがまだ達成されておらず、実車への応用に制限が生じている。本論文では、リアルタイムでの実行が可能でありながら高精度なセマンティックセグメンテーションを実現する深層アーキテクチャを提案する。本アーキテクチャの核となるのは、残差接続(residual connections)と因子分解畳み込み(factorized convolutions)を用いた新規レイヤーであり、高い効率性を維持しつつも優れた精度を達成できる。実験結果によれば、単一のTitan Xでは83 FPS以上、埋め込み型GPUであるJetson TX1では7 FPSでの実行が可能である。公開データセットであるCityscapesを用いた包括的な実験により、本手法が最先端レベルの精度を達成しつつ、他の高精度アーキテクチャに比べて計算速度が桁違いに高速であることが示された。この優れた性能と効率性のバランスにより、本モデルはインテリジェントビークルにおけるシーン理解に最適なアプローチである。コードは公開されており、以下のURLから入手可能である:https://github.com/Eromera/erfnet