2ヶ月前

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning ビデオViTの再考:画像とビデオの統合学習のためのスパースビデオチューブ

Piergiovanni, AJ ; Kuo, Weicheng ; Angelova, Anelia
Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning
ビデオViTの再考:画像とビデオの統合学習のためのスパースビデオチューブ
要約

私たちは、ViTエンコーダを効率的なビデオモデルに変換する単純な手法を提案します。このモデルは画像とビデオの両方の入力に対応し、シームレスに動作します。入力を疎にサンプリングすることで、モデルは両方の入力から学習および推論を行うことが可能です。本モデルは容易にスケーリングが可能であり、大規模事前学習済みのViTにも完全な微調整を必要とせずに適応できます。本モデルは最先端(SOTA)の結果を達成しており、コードはオープンソース化される予定です。

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning ビデオViTの再考:画像とビデオの統合学習のためのスパースビデオチューブ | 最新論文 | HyperAI超神経