15日前
GET:イベントベースビジョン向けグループイベント変換器
Yansong Peng, Yueyi Zhang, Zhiwei Xiong, Xiaoyan Sun, Feng Wu

要約
イベントカメラは、近年注目が高まっている新しいニューロモルフィックセンサの一種である。従来のイベントベースのバックボーンは、イベントから変換された画像内の空間情報を抽出するため、主に画像ベースの設計に依存しており、時間情報や極性(polarity)といったイベント固有の重要な特性を無視している。この問題に対処するため、本研究ではイベントベースビジョン向けに新たなグループベースのビジョントランスフォーマーバックボーンである「Group Event Transformer(GET)」を提案する。GETは、特徴抽出プロセス全体において時空間情報と時系列・極性情報を分離(デカップル)する設計を採用している。具体的には、まず、タイムスタンプと極性に基づいて非同期イベントをグループ化する新しいイベント表現「Group Token」を提案する。その後、GETは「Event Dual Self-Attentionブロック」と「Group Token Aggregationモジュール」を用いて、空間領域および時系列・極性領域の両方において、効果的な特徴通信と統合を実現する。さらに、GETは異なるダウンストリームタスクに応じて各種ヘッドと接続することで、柔軟に統合可能である。本手法は、4つのイベントベース分類データセット(Cifar10-DVS、N-MNIST、N-CARS、DVS128Gesture)および2つのイベントベース物体検出データセット(1Mpx、Gen1)において評価され、他の最先端手法を上回る性能を示した。コードは以下のURLで公開されている:https://github.com/Peterande/GET-Group-Event-Transformer。