17日前

マルチスペクトル動画セマンティックセグメンテーション:ベンチマークデータセットとベースライン

{Li Cheng, Alan L. Yuille, Jiaying Zhao, Zongwei Zhou, Cheng Bian, Jingjing Li, Wei Ji}
マルチスペクトル動画セマンティックセグメンテーション:ベンチマークデータセットとベースライン
要約

複雑なシーンにおける堅牢かつ信頼性の高いセマンティックセグメンテーションは、自動運転や夜間救急活動などの実世界応用において極めて重要である。従来の多くの手法では、RGB画像を入力として利用するが、これらは良好な天候条件下でのみ十分な性能を発揮する。雨天や過光量、低照度などの悪条件に直面すると、しばしば満足のいく結果を提供できず、限界が明らかとなる。このような課題を背景に、近年、RGBと赤外熱画像(RGBT)の両方を入力として用いるマルチスペクトルセマンティックセグメンテーションの研究が進んでいる。これにより、複雑なシーンや悪条件下でも、物体のセグメンテーションが著しく堅牢になる。しかし、現在の主流は単一のRGBT画像入力に限定されており、動的な現実世界のシーンを十分に捉えることができないという課題が残っている。上記の観察に基づき、本研究では、比較的新しいタスクであるマルチスペクトル動画入力に対するセマンティックセグメンテーションに取り組む。これを「マルチスペクトル動画セマンティックセグメンテーション(Multispectral Video Semantic Segmentation, MVSS)」と呼ぶ。それに伴い、自社で構築したMVSegデータセットを提案する。このデータセットは、738本のキャリブレーション済みのRGBおよび熱画像動画から構成され、26カテゴリにわたる3,545枚の細粒度なピクセルレベルのセマンティックアノテーションを備えている。本データセットは、昼夜を問わず多様な困難な都市シーンをカバーしている。さらに、マルチスペクトル的特徴と時系列的文脈の両方から同時かつ効果的にセマンティック表現を学習可能な、初のモデルとしてMVNetという有効なMVSSベースラインを提案する。MVSegデータセットを用いた複数のセマンティックセグメンテーションモデルを対象とした包括的な実験を行った結果、マルチスペクトル動画入力の導入がセマンティックセグメンテーション性能に顕著な向上をもたらすことが実証された。また、提案モデルMVNetの有効性も実験的に確認された。