17日前

単眼深度予測のための再帰的非同期マルチモーダルネットワークを用いたイベントとフレームの統合

Daniel Gehrig, Michelle Rüegg, Mathias Gehrig, Javier Hidalgo Carrio, Davide Scaramuzza
単眼深度予測のための再帰的非同期マルチモーダルネットワークを用いたイベントとフレームの統合
要約

イベントカメラは、各画素の明るさの変化を非同期的な「イベント」として出力する新しいビジョンセンサである。標準カメラと比較して、高い時間分解能、広いダイナミックレンジ、および運動ブラーの不存在という顕著な利点を有している。しかし、イベントは視覚信号の変動成分のみを測定するため、シーンの文脈を十分に表現できないという制限がある。これに対して、標準カメラは絶対的な明るさフレームを測定しており、シーンをはるかに豊かに表現できる。したがって、両センサは相補的である。しかしながら、イベントの非同期性のため、イベントデータと同期的な画像データを統合することは、特に学習ベースの手法において困難である。その理由は、従来の再帰型ニューラルネットワーク(RNN)が、追加センサからの非同期的かつ不規則なデータを処理するように設計されていないためである。この課題に対処するため、本研究では、複数のセンサからの非同期的かつ不規則なデータを扱えるように従来のRNNを拡張した「再帰的非同期多モーダル(Recurrent Asynchronous Multimodal; RAM)ネットワーク」を提案する。従来のRNNを模倣して、RAMネットワークは非同期に更新される隠れ状態を保持し、任意の時刻にその状態を参照することで予測を生成できる。本手法をイベントとフレームを用いた単眼深度推定に適用した結果、平均絶対深度誤差において、最先端手法と比較して最大30%の性能向上を達成した。さらに、イベントを用いた多モーダル学習に関する今後の研究を促進するために、CARLAシミュレータで記録されたイベントデータ、強度フレーム、セマンティックラベル、深度マップを含む新データセット「EventScape」を公開する。