FemtoDet:エネルギー対性能のトレードオフにおけるオブジェクト検出のベースライン

エッジデバイス向けの効率的な検出器は、通常、パラメータ数や処理速度といった指標に最適化されるが、これらの指標は検出器の実際の消費エネルギーと弱い相関関係にあり、エネルギー効率の観点からは不十分である。一方、畳み込みニューラルネットワーク(CNN)を活用する視覚アプリケーションのなかには、常に稼働する監視カメラのように、エネルギー制約が極めて重要なケースが存在する。本研究では、エネルギーと性能のトレードオフを実現するためのベースラインを提供することを目的とし、以下の2つの視点から検出器の設計に取り組んだ。1)過去の研究で軽視されがちな要素に着目し、様々なCNNアーキテクチャを包括的に分析することで、低エネルギー消費を実現する構造を特定した。具体的には、活性化関数の選定、畳み込み演算子の設計、および特徴量融合構造(ネック部)の選定に注力した。これらの要素は、従来の研究において十分に評価されてこなかったが、検出器のエネルギー消費に顕著な影響を与えることが明らかになった。2)エネルギーと性能のジレンマを打破するため、発見した低エネルギー構成要素を基に、エネルギーを意識したバランス型検出器「FemtoDet」を提案した。本研究では、単なる構造の提案にとどまらず、畳み込み演算および学習戦略の最適化を組み合わせてFemtoDetの性能を向上させた。特に、CNNの表現能力の限界と、多様な空間表現を必要とする検出タスクとの間に生じる矛盾を克服するため、新しいインスタンス境界強化(Instance Boundary Enhancement; IBE)モジュールを考案した。また、一般的なデータ拡張によって生じるデータ分布のシフトを考慮し、軽量検出器の局所最適化に陥る問題を回避するため、再帰的ウォームリスタート(Recursive Warm-Restart; RecWR)という新たな学習戦略を提案した。その結果、わずか68.77kのパラメータで、PASCAL VOCデータセットにおいて46.3 AP50の競争力あるスコアを達成し、Qualcomm Snapdragon 865 CPUプラットフォーム上では1.11 Wの消費電力と64.47 FPSの処理速度を実現した。COCOおよびTJU-DHDデータセットにおける広範な実験結果から、提案手法が多様なシーンにおいて優れた性能を発揮することが確認された。