17日前

オムニディレクショナルセグメンテーションのためのオムニレンジコンテキストの捉え方

Kailun Yang, Jiaming Zhang, Simon Reiß, Xinxin Hu, Rainer Stiefelhagen
オムニディレクショナルセグメンテーションのためのオムニレンジコンテキストの捉え方
要約

畳み込みネットワーク(ConvNets)は、意味的セグメンテーションにおいて優れた性能を発揮し、自動運転における認識システムの不可欠な構成要素として広く用いられている。街並みの全体像を捉えることができるため、オムニディレクショナルカメラはこうしたシステムに理想的なセンシング手段である。しかし、都市環境の解析を目的とした大多数のセグメンテーションモデルは、一般的な狭角視野(Field of View: FoV)画像を対象として設計されており、これらのモデルを360度の視野を持つ認識タスクに直接適用すると、性能が著しく低下する。既存のベンチマークにおいて、mIoU(平均交差率)が絶対値で30.0%も低下する事例も報告されている。本研究では、従来の画像領域と360度画像領域の間における視野(FoV)および構造的分布のギャップを埋めるために、効率的な同時注意機構を備えたネットワーク(Efficient Concurrent Attention Networks: ECANets)を提案する。このネットワークは、オムニディレクショナル画像に内在する長距離依存関係を直接捉えることを可能にし、360度にわたる画像全体にわたり学習された注意ベースの文脈的事前知識を活用する。さらに、複数のデータセットから得られる密にラベル付けされたデータとラベルなしデータを統合的に活用する、マルチソースかつオムニ監視学習(omni-supervised learning)によるモデル訓練手法を導入することで、学習効率と汎化性能を向上させた。パノラマ画像セグメンテーション分野の進展を促進するため、本研究では世界中の多様なシーンを収集したデータセット「Wild PAnoramic Semantic Segmentation(WildPASS)」を提案し、多数のモデルを包括的に評価した。本研究で開発した新規モデル、訓練戦略、およびマルチソース予測の融合技術により、公開ベンチマークであるPASS(mIoU 60.2%)および新規のWildPASS(mIoU 69.0%)において、いずれも新たな最先端(SOTA)の性能を達成した。