HyperAIHyperAI

Command Palette

Search for a command to run...

予見型ビデオTransformer

Rohit Girdhar Kristen Grauman

概要

我々は、先行して観測された動画に注目することで、将来の行動を予測することを目的とした、エンドツーエンドのアテンションベースの動画モデリングアーキテクチャ「Anticipative Video Transformer(AVT)」を提案する。本モデルは、動画シーケンスにおける次の行動を予測するタスクと、その後のフレームの特徴量を予測可能なフレーム特徴エンコーダの学習を同時に最適化するように訓練される。既存の時系列集約戦略と比較して、AVTは観測された行動の順次的な進行を維持しつつ、長距離依存関係も捉えることができるという利点を有しており、これらは予測タスクにおいて極めて重要である。広範な実験の結果、AVTはEpicKitchens-55、EpicKitchens-100、EGTEA Gaze+、50-Saladsの4つの代表的な行動予測ベンチマークにおいて、報告されている最高性能を達成しており、特にEpicKitchens-100におけるCVPR'21チャレンジでは1位を獲得した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています