11日前

ドライビングシーンにおける弱教師付きセマンティックセグメンテーション

Dongseob Kim, Seungho Lee, Junsuk Choe, Hyunjung Shim
ドライビングシーンにおける弱教師付きセマンティックセグメンテーション
要約

弱教師ありセマンティックセグメンテーション(WSSS)における最先端技術は、画像レベルのラベルのみを用いる場合、Cityscapesをはじめとするドライビングシーンデータセットにおいて顕著な性能低下を示す。この課題に対処するため、ドライビングシーンデータセットに特化した新たなWSSSフレームワークを提案する。データセットの特性を詳細に分析したうえで、事前学習済みのCLIP(Contrastive Language-Image Pre-training)をベースラインとして採用し、擬似マスク(pseudo-masks)を生成する。しかし、CLIPを用いることで以下の2つの主要な課題が生じる:(1)CLIPから得られる擬似マスクは小規模なオブジェクトクラスの表現が不十分であり、(2)これらのマスクには顕著なノイズが含まれる。本研究では、それぞれの課題に対して以下の解決策を提案する。(1)小規模なパッチをモデル学習中にシームレスに統合する「Global-Local View Training」を設計することで、ドライビングシーンにおいて重要な小サイズのオブジェクト(例:信号機)の処理能力を向上させる。(2)CLIPマスクとセグメンテーション予測の整合性を評価することで、信頼性の高い領域とノイズの多い領域を区別する「Consistency-Aware Region Balancing(CARB)」を導入。この手法は、適応的な損失重み付けにより、ノイズの多いピクセルよりも信頼性の高いピクセルを優先的に学習させる。本手法は、Cityscapesテストデータセットにおいて51.8%のmIoUを達成し、ドライビングシーンデータセットにおける強力なWSSSベースラインとしての可能性を示した。CamVidおよびWildDash2における実験結果から、本手法が小規模データセットや視覚的に困難な状況下でも高い有効性を発揮することが確認された。コードは以下のURLで公開されている:https://github.com/k0u-id/CARB。