2ヶ月前

VicTR: 動画条件付きテキスト表現による活動認識

Kumara Kahatapitiya; Anurag Arnab; Arsha Nagrani; Michael S. Ryoo

要約

ビジョン言語モデル（VLMs）は、大量の事前学習データ（つまり、画像とテキストがペアになったサンプル）の利用可能性により、特にゼロショット設定において画像分野で優れた成果を上げています。しかし、ビデオの場合、このようなペアデータはそれほど豊富ではありません。そのため、ビデオ-VLMsは通常、ゼロから学習するのではなく、事前に学習された画像-VLMsをビデオ分野に適応させて設計されます。これらの手法はすべて、視覚的な埋め込みに時間情報を追加すること（つまり、画像 $\rightarrow$ ビデオ）に依存しており、テキスト埋め込みは変更されないか、甚至は破棄されることが多いです。本論文では逆の主張を行い、より良いビデオ-VLMsを設計するためにテキスト情報の強化に焦点を当てるべきであると述べています。具体的には、Video-conditioned Text Representations (VicTR) を導入します。これは視覚的な埋め込みに対して最適化されたテキスト埋め込み形式であり、より柔軟な対照的な潜在空間を作り出します。さらに当モデルは自由に利用可能な意味情報（例えば視覚的に根ざした補助的なテキスト情報：物体やシーンに関する情報など）も活用できます。我々は当モデルを少ショット学習、ゼロショット学習（HMDB-51, UCF-101）、短尺動画（Kinetics-400）、長尺動画（Charades）の活動認識ベンチマークで評価し、ビデオ-VLMsの中でも高い性能を示すことを確認しました。