2ヶ月前
非同期イベントベースデータの表現のエンドツーエンド学習
Daniel Gehrig; Antonio Loquercio; Konstantinos G. Derpanis; Davide Scaramuzza

要約
イベントカメラは、画素ごとの明度変化の非同期ストリームを記録する視覚センサであり、これらの変化は「イベント」と呼ばれます。フレームベースのカメラと比較して、コンピュータビジョンにおいて高時間解像度、高動的範囲、および運動ブラーのないといった魅力的な利点を持っています。イベント信号の疎で非一様な時空間配置のため、パターン認識アルゴリズムでは通常、イベントをグリッドベースの表現に集約し、その後標準的なビジョンパイプライン(例:畳み込みニューラルネットワーク(CNN))によって処理します。本研究では、異なる微分可能な操作の系列を通じてイベントストリームをグリッドベースの表現に変換する一般的なフレームワークを導入します。当該フレームワークには主に以下の2つの利点があります:(i) 入力イベント表現とタスク専用ネットワークをエンドツーエンドで学習することが可能であり、(ii) 現存する大多数のイベント表現を統一し、新たな表現を特定する分類体系を提供します。実証的に、我々のエンドツーエンドでのイベント表現学習アプローチが最先端手法に対して光学フロー推定や物体認識において約12%の改善をもたらすことを示しています。