17日前

イベントカメラを用いたオブジェクト検出のための再帰的ビジョントランスフォーマー

Mathias Gehrig, Davide Scaramuzza
イベントカメラを用いたオブジェクト検出のための再帰的ビジョントランスフォーマー
要約

本稿では、イベントカメラを用いた物体検出のための新しいバックボーンとして、再帰型ビジョントランスフォーマー(Recurrent Vision Transformers: RVT)を提案する。イベントカメラは、ミリ秒未満の遅延で高ダイナミックレンジの視覚情報を提供し、運動ブラーに対して非常に高い耐性を有する。これらの特徴は、時間的に敏感なシナリオにおける低遅延の物体検出および追跡に大きな可能性を秘めている。これまでのイベントベースビジョンに関する研究では、優れた検出性能が達成されているが、その一方で推論時間が著しく長く、通常40ミリ秒以上かかっていた。本研究では、再帰型ビジョンバックボーンの上位設計を見直すことで、推論時間を6倍短縮しつつ、同等の性能を維持することに成功した。この成果を実現するため、各段階で以下の3つの鍵となる概念を組み込んだマルチステージ構造を検討した。第一に、条件付き位置エンコーディングと見なせる畳み込み型事前情報(convolutional prior)。第二に、空間特徴の相互作用に向けた局所的および拡張されたグローバル自己注意機構(local and dilated global self-attention)。第三に、時間情報を保持しつつ遅延を最小限に抑えるための再帰的時系列特徴集約(recurrent temporal feature aggregation)。RVTは、初期から訓練可能であり、イベントベース物体検出において最先端の性能を達成する。特にGen1自動車データセットにおいて、mAPは47.2%を達成した。同時に、RVTは高速な推論(T4 GPU上での推論時間<12ms)と優れたパラメータ効率(従来手法比5倍少ないパラメータ数)を実現している。本研究は、イベントベースビジョンを越えた分野においても有効な設計選択に関する新たな知見を提供する。