HyperAIHyperAI

Command Palette

Search for a command to run...

動画表現学習による密集予測符号化

Tengda Han Weidi Xie Andrew Zisserman

概要

本論文の目的は、ビデオから人間の行動認識に適した時空間埋め込みを自己監督学習することである。我々は以下の3つの貢献を行う:第一に、ビデオにおける自己監督表現学習のためのDense Predictive Coding(DPC)フレームワークを導入する。これは、未来の表現を繰り返し予測することで時空間ブロックの密集符号化を学習する;第二に、時間的なコンテキストが段階的に減少する中でより遠い未来を予測するカリキュラムトレーニングスキームを提案する。これによりモデルはゆっくりと変化する時空間信号のみを符号化することが促され、結果として意味的な表現が得られる;第三に、まずKinetics-400データセット上で自己監督学習によってDPCモデルを訓練し、次いで下流タスクである行動認識に対してその表現を微調整することでアプローチの評価を行う。単一ストリーム(RGBのみ)において、DPC事前学習表現はUCF101(75.7% 上位1位精度)およびHMDB51(35.7% 上位1位精度)で最先端の自己監督性能を達成しており、これまでのすべての学習手法を大幅に上回り、ImageNetで事前学習されたベースラインに近い性能を示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
動画表現学習による密集予測符号化 | 記事 | HyperAI超神経