
要約
イベントカメラ、または動的ビジョンセンサ(DVS)は、フレームベースのカメラに比べていくつかの優位性を示しており、非常に有望なセンサです。しかし、これらのカメラの実際の応用に関する最近の研究の大半は、3次元再構成や6自由度カメラ追跡に焦点を当てています。視覚認識タスクにおいて最先端を走っている深層学習に基づくアプローチは、DVSの利点を活用する可能性がありますが、これらのカメラで効果的に動作させるためにはまだいくつかの適応が必要です。本研究では、この種のデータを使用したセマンティックセグメンテーションの最初の基準モデルを導入します。我々は、最先端技術に基づいてイベント情報のみを入力とするセマンティックセグメンテーションCNNを構築しました。さらに、関連タスクで以前使用されていたイベント表現よりも優れた新しいDVSデータ表現手法を提案します。このタスクのためにラベル付けされたデータセットが存在しないため、DDD17データセットの一部シーケンスに対して近似的なセマンティックセグメンテーションラベルを自動生成する方法を提案し、モデルとともに公開しています。また、これらのラベルがDVSデータのみを使用してモデルを訓練するために有効であることを示しています。我々はDVSデータから得られるセマンティックセグメンテーション結果と対応するグレースケール画像を使用した結果を比較し、両者が互いに補完的であり組み合わせる価値があることを証明しています。