9日前

予見型ビデオTransformer

Rohit Girdhar, Kristen Grauman
予見型ビデオTransformer
要約

我々は、先行して観測された動画に注目することで、将来の行動を予測することを目的とした、エンドツーエンドのアテンションベースの動画モデリングアーキテクチャ「Anticipative Video Transformer(AVT)」を提案する。本モデルは、動画シーケンスにおける次の行動を予測するタスクと、その後のフレームの特徴量を予測可能なフレーム特徴エンコーダの学習を同時に最適化するように訓練される。既存の時系列集約戦略と比較して、AVTは観測された行動の順次的な進行を維持しつつ、長距離依存関係も捉えることができるという利点を有しており、これらは予測タスクにおいて極めて重要である。広範な実験の結果、AVTはEpicKitchens-55、EpicKitchens-100、EGTEA Gaze+、50-Saladsの4つの代表的な行動予測ベンチマークにおいて、報告されている最高性能を達成しており、特にEpicKitchens-100におけるCVPR'21チャレンジでは1位を獲得した。