HyperAIHyperAI

Command Palette

Search for a command to run...

VicTR: 動画条件付きテキスト表現による活動認識

Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo

概要

ビジョン言語モデル(VLMs)は、大量の事前学習データ(つまり、画像とテキストがペアになったサンプル)の利用可能性により、特にゼロショット設定において画像分野で優れた成果を上げています。しかし、ビデオの場合、このようなペアデータはそれほど豊富ではありません。そのため、ビデオ-VLMsは通常、ゼロから学習するのではなく、事前に学習された画像-VLMsをビデオ分野に適応させて設計されます。これらの手法はすべて、視覚的な埋め込みに時間情報を追加すること(つまり、画像 \rightarrow ビデオ)に依存しており、テキスト埋め込みは変更されないか、甚至は破棄されることが多いです。本論文では逆の主張を行い、より良いビデオ-VLMsを設計するためにテキスト情報の強化に焦点を当てるべきであると述べています。具体的には、Video-conditioned Text Representations (VicTR) を導入します。これは視覚的な埋め込みに対して最適化されたテキスト埋め込み形式であり、より柔軟な対照的な潜在空間を作り出します。さらに当モデルは自由に利用可能な意味情報(例えば視覚的に根ざした補助的なテキスト情報:物体やシーンに関する情報など)も活用できます。我々は当モデルを少ショット学習、ゼロショット学習(HMDB-51, UCF-101)、短尺動画(Kinetics-400)、長尺動画(Charades)の活動認識ベンチマークで評価し、ビデオ-VLMsの中でも高い性能を示すことを確認しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています