GateHUB: ゲート付き履歴ユニットと背景抑制を用いたオンライン行動検出

オンラインアクション検出は、ストリーミング動画でアクションが発生した瞬間にそれを予測するタスクです。主要な課題は、モデルが未来の情報にアクセスできないことであり、予測を行うためにはこれまで観測されたフレーム(履歴)のみに依存しなければならないことです。したがって、現在のフレーム予測に役立つ情報をより多く含む履歴の部分を強調することが重要です。本稿では、GateHUB(Gated History Unit with Background Suppression)を提案します。これは、位置ガイド付きゲートクロスアテンション機構を用いて、履歴の各部分が現在のフレーム予測に対してどの程度有用かに基づいてその部分を強調または抑制する新しい方法です。さらに、GateHUBはFuture-augmented History (FaH)を提案し、利用可能な場合にその後観測されるフレームを使用して履歴特徴をより有用にする手法を導入しています。単一の統合フレームワークにおいて、GateHUBはトランスフォーマーの長距離時間的モデリング能力と再帰型モデルの関連情報を選択的に符号化する能力を統合しています。また、背景抑制目標も導入しており、アクションフレームに類似した偽陽性の背景フレームをさらに軽減することを目指しています。THUMOS, TVSeries, HDDという3つのベンチマークデータセットでの広範な検証により、GateHUBは既存のすべての手法よりも著しく優れた性能を示し、既存の最良の手法よりも効率的であることが確認されました。さらに、オプティカルフロー情報を必要としないバージョンのGateHUBは、RGBとオプティカルフロー両方の情報を必要とする既存のすべての手法と比較して2.8倍高いフレームレートで同等またはより高い精度を達成できることも明らかになりました。