RGB-イベント融合による自動運転における動物体検出

移動物体検出(Moving Object Detection, MOD)は、安全な自動運転を達成する上で重要な視覚タスクです。深層学習手法の有望な結果にもかかわらず、既存の大多数のアプローチはフレームベースであり、動的な交通参加者を扱う際には十分な性能を発揮できない可能性があります。最近のセンサ技術の進歩、特にイベントカメラの発展により、従来のカメラアプローチを補完し、移動物体をより適切にモデル化することが可能になりました。しかし、イベントベースの研究では、しばしば事前に定義された時間窓がイベント表現に使用され、イベントから画像強度を推定するために単純に統合されるため、利用可能な非同期イベントから得られる豊富な時間情報が無視されることが多いです。そこで、新たな視点から、我々はRENetと呼ばれる新しいRGB-Event融合ネットワークを提案します。このネットワークは2つの相補的なモダリティを共同で活用することで、自動運転における困難な状況下でもより堅牢なMODを実現します。具体的には、まず時空間多尺度集約モジュール(temporal multi-scale aggregation module)を設計し、RGB露出時間とより長い間隔からのイベントフレームを完全に活用します。次に、双方向融合モジュール(bi-directional fusion module)を導入して、注意深く多様な特徴量を調整および融合します。我々のネットワークの性能評価のために、一般的に使用されているDSECデータセットからサブ-MODデータセットを選択し注釈しました。広範囲にわたる実験結果は、提案手法が最先端のRGB-Event融合手法よりも著しく優れていることを示しています。ソースコードとデータセットは公開されており、以下のURLからアクセスできます:https://github.com/ZZY-Zhou/RENet。