11日前
Drive&Segment:クロスモーダル蒸留を用いた都市景観の教師なしセマンティックセグメンテーション
Antonin Vobecky, David Hurych, Oriane Siméoni, Spyros Gidaris, Andrei Bursuc, Patrick Pérez, Josef Sivic

要約
本研究は、都市環境におけるピクセル単位のセマンティック画像セグメンテーションを、手動によるアノテーションを一切用いずに実現することを目的としている。具体的には、都市を走行する自動車が搭載するカメラおよびLiDARセンサーによって収集された、未加工かつ整理されていない原始データのみを用いる。本研究の貢献は以下の三つである。第一に、同期されたLiDARデータと画像データを活用した、クロスモーダルな教師なし学習によるセマンティック画像セグメンテーションの新規手法を提案する。本手法の鍵となる要素は、LiDAR点群データを分析して空間的に整合性を持つ物体の候補(オブジェクトプロポーザル)を取得するモジュールの導入である。第二に、これらの3次元オブジェクトプロポーザルが入力画像と正確にアライメント可能であり、信頼性の高いクラスタリングによって意味的に意味のある疑似クラス(pseudo-classes)に分類可能であることを示す。第三に、得られた疑似クラスで部分的にアノテーションされた画像データを用いて、トランスフォーマーに基づくモデルを学習するためのクロスモーダル蒸留(cross-modal distillation)アプローチを開発する。本手法の汎化能力を、微調整(fine-tuning)を行わずに4つの異なるテストデータセット(Cityscapes、Dark Zurich、Nighttime Driving、ACDC)で評価することで検証し、従来の最先端手法と比較して顕著な性能向上を示した。コードおよび詳細情報は、プロジェクトウェブページ(https://vobecant.github.io/DriveAndSegment/)にて公開されている。