17日前

MERLOT Reserve:視覚・言語・音声を用いた神経的スクリプト知識

Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi, Yejin Choi
MERLOT Reserve:視覚・言語・音声を用いた神経的スクリプト知識
要約

人間は、複数の感覚を統合して世界を理解するマルチモーダルな存在です。本研究では、音声、字幕、映像フレームから学習する新たな学習目的を用いて、時間軸上で動画を統合的に表現するモデル「MERLOT Reserve」を提案します。与えられた動画に対して、テキストや音声の一部をMASKトークンに置き換えることで、モデルは正しいマスクされた断片を予測することによって学習します。この学習目的は従来の手法よりも高速に学習が進み、大規模なスケールでも優れた性能を発揮します。我々は2000万本のYouTube動画を用いて事前学習を行いました。実証的な結果から、MERLOT Reserveが強力なマルチモーダル表現を学習することが示されました。微調整(fine-tuning)後、Visual Commonsense Reasoning(VCR)、TVQA、Kinetics-600の各ベンチマークで最先端の性能を達成し、それぞれ従来手法より5%、7%、1.5%の向上を実現しました。アブレーション研究により、音声の事前学習がこれらのタスクに有益であることが明らかになりました。特に、音声を含まない画像中心のQAタスクであるVCRにおいても、音声の事前学習が効果を発揮していることが示されました。さらに、本学習目的により、事前学習済みモデルをそのまま使用したゼロショット(zero-shot)予測が可能となり、強力なマルチモーダル共通認識能力を示しました。完全なゼロショット設定においても、4つの動画関連タスクで競争力ある結果を達成し、最近提案された「状況認識(Situated Reasoning, STAR)」ベンチマークでは、従来の教師ありアプローチを上回る性能を発揮しました。本研究では、音声が視覚言語表現の向上に寄与する理由について考察し、今後の研究における大きな可能性を示唆しました。最後に、マルチモーダル事前学習の倫理的・社会的影響についても議論を展開しました。