6ヶ月前

ビデオ理解

コンピュータビジョン

コンピュータビジョン

Rohit Girdhar Kristen Grauman

概要

我々は、先行して観測された動画に注目することで、将来の行動を予測することを目的とした、エンドツーエンドのアテンションベースの動画モデリングアーキテクチャ「Anticipative Video Transformer（AVT）」を提案する。本モデルは、動画シーケンスにおける次の行動を予測するタスクと、その後のフレームの特徴量を予測可能なフレーム特徴エンコーダの学習を同時に最適化するように訓練される。既存の時系列集約戦略と比較して、AVTは観測された行動の順次的な進行を維持しつつ、長距離依存関係も捉えることができるという利点を有しており、これらは予測タスクにおいて極めて重要である。広範な実験の結果、AVTはEpicKitchens-55、EpicKitchens-100、EGTEA Gaze+、50-Saladsの4つの代表的な行動予測ベンチマークにおいて、報告されている最高性能を達成しており、特にEpicKitchens-100におけるCVPR'21チャレンジでは1位を獲得した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ理解

コンピュータビジョン

コンピュータビジョン

Rohit Girdhar Kristen Grauman

概要

我々は、先行して観測された動画に注目することで、将来の行動を予測することを目的とした、エンドツーエンドのアテンションベースの動画モデリングアーキテクチャ「Anticipative Video Transformer（AVT）」を提案する。本モデルは、動画シーケンスにおける次の行動を予測するタスクと、その後のフレームの特徴量を予測可能なフレーム特徴エンコーダの学習を同時に最適化するように訓練される。既存の時系列集約戦略と比較して、AVTは観測された行動の順次的な進行を維持しつつ、長距離依存関係も捉えることができるという利点を有しており、これらは予測タスクにおいて極めて重要である。広範な実験の結果、AVTはEpicKitchens-55、EpicKitchens-100、EGTEA Gaze+、50-Saladsの4つの代表的な行動予測ベンチマークにおいて、報告されている最高性能を達成しており、特にEpicKitchens-100におけるCVPR'21チャレンジでは1位を獲得した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

予見型ビデオTransformer | 記事 | HyperAI超神経