11日前

時間的行動局所化のための低解像度動画符号化器最適化

{Brais Martinez, Bernard Ghanem, Xiatian Zhu, Juan Manuel Perez Rua, Mengmeng Xu}
時間的行動局所化のための低解像度動画符号化器最適化
要約

現在の多数の時系列行動局所(Temporal Action Localization; TAL)手法は、転移学習パイプラインに依存している。すなわち、まず大規模な行動分類データセット(=ソースドメイン)上で動画エンコーダを最適化し、その後エンコーダを固定して、行動局所化データセット(=ターゲットドメイン)上でTALヘッドを学習するというプロセスである。このアプローチでは、動画エンコーダが行動分類のタスクに最適化されているにもかかわらず、TALのタスクに使用されることから、タスクの不一致問題が生じる。直感的には、動画エンコーダとTALヘッドを同時に最適化する手法が、この不一致問題を効果的に解消する強力なベースラインとなる。しかし、長時間の未トリム動画を処理する際の膨大な計算コストにより、GPUメモリ制約の下ではTALにおいてこのアプローチは実行不可能である。本論文では、この課題を解決するため、新たな低精度(Low-fidelity; LoFi)動画エンコーダ最適化手法を提案する。TAL学習における常にフルな訓練設定を使用するのではなく、ミニバッチの構成を時間的、空間的、あるいは時空間的解像度の面で低減することで、中程度のハードウェアリソース条件下でも、動画エンコーダとTALヘッドを同時に最適化することが可能となる。重要な点は、TALの監視損失に基づいて動画エンコーダを介して勾配が逆伝播されるようになることで、タスクの不一致問題が効果的に解消され、より有効な特徴表現が得られることである。広範な実験により、提案するLoFi最適化アプローチが既存のTAL手法の性能を著しく向上させることを示した。特に、単一RGBストリームに軽量なResNet18ベースの動画エンコーダを用いても、通常は2ストリーム(RGB+光流)のResNet50ベースの手法を、良好な差をもって上回ることが確認された。