1メガピクセルのイベントカメラを用いたオブジェクト検出の学習

イベントカメラは、高時間分解能、低データレート、広動態範囲という特徴により、視覚情報を効率的にエンコードする。これらの特性により、高速な運動、厳しい照明条件、低レイテンシ要件が求められる場面において、イベントカメラは特に適している。しかし、この分野がまだ新しく、多くのビジョンタスクにおいてイベントベースのシステムの性能は従来のフレームベースの手法と比べて依然として低い。この性能ギャップの主な要因は以下の通りである:イベントセンサの空間解像度がフレームカメラに比べて低いこと、大規模な学習データセットが不足していること、イベントベース処理に向けた確立された深層学習アーキテクチャが存在しないことである。本論文では、イベントベースの物体検出タスクを対象として、これらの課題を一括して解決する。まず、物体検出用の初の高解像度・大規模データセットを公開する。このデータセットは、自動車走行シーンを対象に、1メガピクセルのイベントカメラで14時間以上にわたり記録したデータを含み、車両、歩行者、二輪車の2500万個のバウンディングボックスを高頻度でラベル付けしている。次に、イベントベース検出のための新規な再帰型アーキテクチャと、より安定した学習を促進するための時間的一貫性損失関数を提案する。モデルの内部メモリにイベントの時系列を効率的に表現できる能力は、高精度を達成するために不可欠である。本モデルは、前向き型(feed-forward)のイベントベースアーキテクチャを大幅に上回る性能を示す。さらに、本手法はイベントから強度画像を再構成する必要がなく、直接イベントデータから学習可能であることを示している。これにより、中間的な強度画像を経由する手法よりも、より効率的かつ高精度な処理が可能であることが明らかになった。本研究で提示したデータセット(イベントデータとグレイレベル画像の両方が入手可能)を用いた実験により、高度に最適化・研究されたフレームベース検出器と同等の性能が達成された。