レティナ:イベントカメラとスパイキングハードウェアを用いた低消費電力の視線追跡

本論文では、Dynamic Vision Sensor (DVS) カメラで取得された純粋なイベントデータを活用した視線追跡のニューモルフィック手法について紹介します。このフレームワークは、直接学習されたスパイキングニューロンネットワーク (SNN) 回帰モデルと最先端の低消費電力エッジニューモルフィックプロセッサであるSpeckを統合し、視線追跡システムの精度と効率性の向上を目指しています。まず、「Ini-30」という代表的なイベントベースの視線追跡データセットを紹介します。これは、30人のボランティアから収集された2つのガラス装着型DVSカメラを使用して作成されました。次に、Integrate And Fire (IAF) ニューロンに基づくSNNモデル「Retina」について説明します。「Retina」はわずか64kパラメータ(最新のものよりも6.63倍少ない)で構成され、64x64 DVS入力において瞳孔追跡誤差が3.24ピクセルという優れた性能を達成しています。連続的な回帰出力は、非スパイキングの一次元時間フィルタを出力スパイキング層にスライドさせることにより畳み込みによって得られます。最後に、「Retina」モデルをニューモルフィックプロセッサ上で評価し、時間窓に依存して2.89-4.8 mWの消費電力と5.57-8.01 m秒の遅延時間を示しました。また、イベントフレームに基づいて構築された最新のイベントベース視線追跡手法「3ET」と比較しました。「Retina」は瞳孔中心位置誤差が1.24ピクセル少ない上、計算量が35倍少ないMAC操作数で優れた精度を達成していることが確認されました。本研究がクローズループ型ニューモルフィックソリューションや真のイベントベース学習によるエッジ性能追求へのさらなる調査につながることを期待しています。