7日前

事前学習された対比モデルの多チャネル動画・言語検索への高速適応に向けて

Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang

要約

マルチチャネル動画・言語検索は、異なるチャネル（例：動画＋質問、動画＋音声）からの情報を理解し、動画とテキスト応答やクエリを正しく対応付ける能力をモデルに求めます。幸いにも、画像・動画とテキスト間のエンティティを効果的にアライメントできる対照的マルチモーダルモデル（例：CLIP）が注目されており、近年では対照的テキストモデル（例：SimCSE）が判別性の高い文埋め込みを生成する能力の高さから広く研究されています。しかし、限られたデータとリソースの下で、これらの2つのアプローチをマルチチャネル動画・言語検索に迅速に適応する明確な方法はまだ確立されていません。本研究では、2つの軸から構成される原理的なモデル設計空間を提示します。すなわち、動画をどのように表現するか、そして動画とテキスト情報をどのように融合するかという点です。最近の手法を分類した上で、動画の表現方法として連続的特徴ベクトルか離散的テキストトークンのどちらを使用するかを検討し、融合手法に関してはマルチモーダルTransformerと事前学習済みの対照的テキストモデルの利用を検証しました。これらの4つの組み合わせを5つの動画・言語データセットで広範に評価した結果、驚くべきことに、離散的テキストトークンと事前学習済みの対照的テキストモデルの組み合わせが最も優れた性能を示しました。これは、数百万件の動画・テキストデータに対する追加学習を行わずに、iVQAおよびHow2QAデータセットにおいて既存の最先端手法を上回ることも可能であることを示しています。さらに分析の結果、動画をテキストトークンとして表現することで、視覚的特徴の主要な情報を効果的に捉えられ、対照学習により強力な検索能力を持つテキストモデルと自然にアライメントされるため、このアプローチが優れることが明らかになりました。本研究の実証的分析は、低コストかつ拡張可能なマルチモーダル知能の今後の研究基盤を確固たるものとしています。