2ヶ月前

SViTT: 稀疏ビデオ-テキスト変換器の時系列学習

Yi Li; Kyle Min; Subarna Tripathi; Nuno Vasconcelos
SViTT: 稀疏ビデオ-テキスト変換器の時系列学習
要約

ビデオ-テキスト変換器はフレーム間の時系列関係をモデル化する能力を学習できるのでしょうか?それらが巨大な容量を持ち、多様な訓練データが豊富に存在するにもかかわらず、最近の研究では、ビデオ-テキストモデルがフレームベースの空間表現に強く傾倒していることが明らかになりました。一方で、時系列的な推論は依然として解決されていません。本研究では、ビデオ-テキスト変換器の時系列学習におけるいくつかの重要な課題を特定しました。これらは、ネットワークサイズの制限による空間と時間のトレードオフ;複数フレームモデリングにおける次元の呪い;およびクリップ長さを延ばすことによる意味情報の逓減効果です。これらの知見に基づいて、私たちはSViTT(Sparse Video-Text Transformer)という疎なビデオ-テキストアーキテクチャを提案します。これは、全結合型アテンションを使用する単純な変換器よりも大幅に低いコストで複数フレームの推論を行うことができます。グラフベースネットワークと同様に、SViTTは2つの種類の疎性を利用します:自己注意におけるトークン間のクエリ-キー通信を制限するエッジ疎性;そして非情報的な視覚トークンを排除するノード疎性です。クリップ長さとともにモデルの疎性を増加させるカリキュラムで訓練されたSViTTは、複数のビデオ-テキスト検索および質問応答ベンチマークにおいて、計算コストの一握りで全結合型トランスフォーマー基準モデルを上回る性能を示しています。プロジェクトページ: http://svcl.ucsd.edu/projects/svitt.

SViTT: 稀疏ビデオ-テキスト変換器の時系列学習 | 最新論文 | HyperAI超神経