階層的特徴精製ネットワークを用いたオブジェクト検出におけるイベントとフレームの統合

フレームベースの視覚において、従来のカメラの感応能力に限界があるため、困難な条件下で物体検出の性能が著しく低下する問題が生じる。一方、イベントカメラは疎かつ非同期なイベントを出力するため、こうした課題の解決に向けた有望な手段として注目されている。しかし、異種モダリティ間の有効な融合は依然として未解決の課題である。本研究では、イベント-フレーム融合を目的とした新しい階層的特徴精緻化ネットワークを提案する。その中心となる概念は、「粗から細への融合モジュール」である、クロスモダリティ適応的特徴精緻化(Cross-modality Adaptive Feature Refinement; CAFR)モジュールの設計である。初期段階では、双方向クロスモダリティ相互作用(Bidirectional Cross-modality Interaction; BCI)部により、異なる情報源間の橋渡しを実現する。その後、二段階適応的特徴精緻化(Two-fold Adaptive Feature Refinement; TAFR)部によって、チャネルレベルにおける平均と分散の整合性を高め、特徴をさらに精緻化する。本手法は、低解像度のPKU-DDD17-Carデータセットおよび高解像度のDSECデータセットの2つのベンチマーク上で広範な実験を実施した。実験結果から、DSECデータセットにおいて、最先端手法を8.0%の顕著な差で上回ることが明らかになった。さらに、フレーム画像に15種類の異なる劣化(corruption)を導入した場合、本手法は69.5%という顕著なロバスト性を示し、対照的に最先端手法は38.7%にとどまることが確認された。実装コードは以下のリンクから公開されている:https://github.com/HuCaoFighting/FRN。