
要約
現在、イベントカメラデータを処理する最先端の深層ニューラルネットワークは、時間窓内のイベントを密なグリッド型の入力表現に変換する。しかし、このアプローチでは、訓練時と異なる高い推論周波数(すなわち、より短い時間窓)で展開された場合、一般化性能が著しく低下するという課題がある。本研究では、学習可能な時間スケールパラメータを備えた状態空間モデル(SSM)をイベントベースビジョンに導入することで、この課題に取り組む。この設計により、異なる周波数での再訓練を必要とせずに、入力周波数の変動に柔軟に対応できる。さらに、高周波数での展開時に生じるアリasing効果を軽減するための2つの戦略を検討した。我々の手法は、RNNおよびTransformerアーキテクチャに基づく既存手法と比較し、Gen1および1 Mpxのイベントカメラデータセットを含む多様なベンチマークで包括的に評価された。その結果、SSMベースのモデルは訓練速度が33%高速であり、かつ訓練時の入力時間窓よりも高い周波数でテストしても性能の低下が最小限に抑えられていることが明らかになった。一方、従来のRNNおよびTransformerモデルは20 mAP以上の性能低下を示したのに対し、SSMは3.76 mAPの低下にとどまり、イベントベースビジョンタスクにおけるSSMの有効性が明確に示された。