HALSIE:画像とイベントモダリティを同時に活用する学習によるセグメンテーションのハイブリッドアプローチ

イベントカメラは、各画素の明るさの変化を検出し、非同期的な「イベントストリーム」を生成する。従来のカメラと比較して、極めて高い時間分解能と広いダイナミックレンジ(HDR)を備えるため、リアルタイム自律システムにおける高精度なセマンティックマップの取得に大きな可能性を秘めている。しかし、イベントベースのセグメンテーションに向けた従来の実装手法は、時間的に密なイベントが視覚信号の変動成分のみを測定するため、フレームと比べて空間的文脈を豊かに表現する能力に制限があり、性能が最適化されていないという課題を抱えている。この問題を解決するため、本研究では、先行技術と比較して推論コストを最大20倍まで低減しつつ、同等の性能を維持できるハイブリッドエンドツーエンド学習フレームワーク「HALSIE」を提案する。本フレームワークは以下の3つの鍵となる概念を活用している。第一に、フレームとイベントの両方から補完的な空間時系列埋め込みを効率的に抽出するシンプルなクロスドメイン学習スキーム。第二に、スパイキングニューラルネットワーク(SNN)と人工ニューラルネットワーク(ANN)の二重エンコーダ構造を特別に設計し、低遅延を実現しつつクロスドメイン特徴の統合を維持する。第三に、融合された埋め込みの豊かな表現をモデル化するためのマルチスケールキューミキサー。これらの特徴により、HALSIEは非常に軽量なアーキテクチャを実現しつつ、DDD-17、MVSEC、DSEC-Semanticデータセットにおいて最先端のセグメンテーション性能を達成した。パラメータ効率は最大33倍向上し、推論コストも有利な水準(1サイクルあたり17.9mJ)を維持している。また、本研究のアブレーションスタディにより、他の視覚タスクにおいても有益となる効果的な設計選択に関する新たな知見が得られた。