17日前

ESS:静止画像からのイベントベースセマンティックセグメンテーションの学習

Zhaoning Sun, Nico Messikommer, Daniel Gehrig, Davide Scaramuzza
ESS:静止画像からのイベントベースセマンティックセグメンテーションの学習
要約

高動態範囲(HDR)かつ高速な条件下では、画像ベースのアルゴリズムが正確な意味情報(セマンティック情報)を取得するという課題は依然として未解決である。これは、極めて深刻な画像劣化が発生するためである。一方で、イベントカメラは非常に高い動的範囲を有し、運動ブラーに対して耐性があるため、こうした課題を克服する可能性を秘めている。しかし、イベントカメラを用いたセマンティックセグメンテーションはまだ初期段階にあり、その主な要因は高品質でラベル付きのデータセットが不足しているためである。本研究では、既存のラベル付き画像データセットからラベルなしのイベントデータへと、教師なしドメイン適応(UDA)を用いてセマンティックセグメンテーションタスクを直接転移する「ESS(Event-based Semantic Segmentation)」を提案する。既存のUDA手法と比較して、本手法は再帰的かつ運動不変なイベント埋め込みを、画像埋め込みと一致させる。このため、本手法は動画データを必要とせず、画像とイベント間のピクセル単位のアライメントも不要であり、特に重要なことに、静止画像から運動を「幻覚」(ホールーリング)する必要もない。さらに、細粒度のラベルを備えた大規模なイベントベースデータセット「DSEC-Semantic」を初回導入する。画像ラベルのみを用いても、ESSは既存のUDAアプローチを上回ることを示し、イベントラベルと組み合わせた場合、DDD17およびDSEC-Semanticの両データセットにおいて、最先端の教師ありアプローチをも凌駕する性能を発揮する。最後に、ESSは汎用性を備えており、既存の大量なラベル付き画像データセットを活用可能にするだけでなく、イベントカメラが従来はアクセスできなかった新たな分野における、革新的な研究展開を可能にする。