HyperAIHyperAI

Command Palette

Search for a command to run...

MeMViT:効率的な長期動画認識のためのメモリ拡張型マルチスケールビジョンTransformer

Chao-Yuan Wu Yanghao Li Karttikeya Mangalam Haoqi Fan Bo Xiong Jitendra Malik Christoph Feichtenhofer

概要

現在の動画認識システムは、スナップショットや短いクリップを正確に解析できるものの、長時間にわたる時間的関係を結びつけたり、その上で推論を行うことはまだできていない。既存の大多数の動画アーキテクチャは、計算量やメモリのボトルネックに達する前に5秒未満の動画しか処理できない。本論文では、この課題を克服するための新しい戦略を提案する。既存の多くの手法が一度に多数のフレームを処理しようと試みるのではなく、我々は動画をオンライン形式で処理し、各反復ステップで「記憶(memory)」をキャッシュする手法を提案する。この記憶を介して、モデルは過去のコンテキストを参照し、長期的なモデリングが可能となるが、計算コストはわずかに増加するにとどまる。このアイデアに基づき、MeMViT(Memory-augmented Multiscale Vision Transformer)を構築した。MeMViTは、既存モデルと比較して時間的サポートを30倍長くし、計算量はわずか4.5%増加にとどまる。一方、従来手法では同じ効果を得るためには3,000%以上の追加計算量が必要となる。幅広い設定において、MeMViTがもたらす時間的サポートの拡張は、一貫して認識精度の大幅な向上をもたらした。MeMViTは、AVA、EPIC-Kitchens-100の行動分類、および行動予測のデータセットにおいて、最先端の性能を達成した。コードとモデルは、https://github.com/facebookresearch/memvit にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています