要約
シーン解析は、現代の自動運転システムにおいて重要な要素である。従来のセマンティックセグメンテーションに関する研究の多くは、良好な天候条件と照明環境が整った昼間のシーンに焦点を当てている。本論文では、合成データから実データへのドメインマッピング手法を用いて夜間シーンのセマンティックセグメンテーションを実現する新たな深層学習アーキテクチャ、NiSeNetを提案する。本モデルは二重チャネル構造を採用しており、空間情報の保持を目的としてDeepLabV3+とMSE損失関数を組み合わせた「リアルチャネル」を設計した。さらに、合成夜間画像と実画像間のドメインギャップを低減するための「適応チャネル」を導入し、リアルチャネルの出力に起因する誤りを補完する。二重チャネル構造に加え、両チャネル出力を融合する新しい融合スキームも提案した。また、本研究では新たなデータセットであるUrban Night Driving Dataset(UNDD)を構築した。UNDDは、ラベルなしの昼間および夜間画像7,125枚から構成され、さらにCityscapesデータセットと同等のクラスを有する75枚の夜間画像について画素単位のアノテーションを備えている。提案手法はBerkeley Deep Driveデータセット、挑戦的なMapillaryデータセット、およびUNDDデータセットにおいて評価され、精度および視覚的品質の両面で最先端技術を上回ることを示した。