9日前

大規模な動画字幕を活用した高解像度動画・言語表現の進展

Hongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu, Huan Yang, Jianlong Fu, Baining Guo

要約

我々は、複数の視覚・言語（VL）タスクに有益なクロスモダリティ学習を可能にするため、動画と言語の共同事前学習を研究している。従来の手法は、低品質な動画特徴量を抽出するか、限定的なテキスト埋め込みを学習する一方で、高解像度の動画や多様な意味情報を活用することでクロスモダリティ学習が著しく向上する可能性を無視している。本論文では、多数の視覚タスクに対応するための新しい高解像度・多様性を有する視覚言語事前学習モデル（HD-VILA）を提案する。特に、以下の2つの特徴を持つ大規模データセットを収集した：1）720p解像度の動画を371.5万時間含む、初めての高解像度データセット、および2）YouTubeで人気のある15のカテゴリをカバーする、最も多様性に富んだデータセット。VL事前学習を実現するため、空間時間的特徴を豊かに学習するハイブリッドTransformerと、学習された動画特徴量と多様なテキストとの相互作用を強制するマルチモーダルTransformerを統合的に最適化することで、HD-VILAモデルを学習した。本モデルは、10のVL理解タスクおよび2つの新しいテキストから視覚情報を生成するタスクにおいて、新たな最先端性能を達成した。例えば、ゼロショットMSR-VTTテキストから動画への検索タスクにおいて、SOTAモデル比でR@1スコアを40.4％向上し、高解像度データセットLSMDCでは55.4％の相対的向上を達成した。また、学習されたVL埋め込みは、テキストから視覚情報への編集および超解像タスクにおいて、視覚的に魅力的で意味的に関連性のある結果を効果的に生成することも示された。