8日前
ショットラック・ホームズ:動画キャプション生成および要約向けに効率的な小規模大規模言語視覚モデル族
Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain

要約
動画は情報量が豊かで、ますます重要なメディアとして注目されている一方で、言語モデルにとって大きな課題を抱えている。一般的な動画は、一連の短いセグメント(ショット)から構成されており、それらが連携して一貫性のある物語を形成している。各ショットは、文における単語に類似しており、視覚的および聴覚的な複数のデータストリームを同時に処理する必要がある。動画全体の理解には、各ショットの視聴覚情報の把握に加えて、ショット間の意味的つながりを把握し、より広範で統合的な物語を生成する能力が求められる。これまでの研究で大きな進展が見られたものの、現行の手法はしばしば動画の細かいショット単位の意味情報に十分に注目していない。本研究では、動画の要約およびキャプション生成を強化するため、効率的な大規模言語視覚モデル(LLVM)のファミリーである「Shotluck Holmes」を提案する。より優れた事前学習戦略とデータ収集手法を活用することで、既存の小規模LLVMが画像を理解する能力から、複数のフレームの系列を理解する能力へと拡張している。具体的には、Shot2Storyという動画キャプションおよび要約タスクにおいて、最先端の成果を上回る性能を、さらに小型かつ計算効率の高いモデルで達成できることを示した。