7日前

HowToCaption:大規模な動画アノテーションを変換するためのLLMプロンプト手法

Nina Shvetsova, Anna Kukleva, Xudong Hong, Christian Rupprecht, Bernt Schiele, Hilde Kuehne
HowToCaption:大規模な動画アノテーションを変換するためのLLMプロンプト手法
要約

教材動画は、動画の音声信号から自動音声認識システム(ASR)を用いて抽出された字幕を活用することで、テキスト-動画表現やマルチモーダル表現を学習するための一般的な情報源である。しかし、人間が手動で付与したキャプションとは異なり、音声や字幕は動画の視覚的コンテンツと自然にずれているため、わずかな監視信号しか提供しない。その結果、教師なしのウェブ動画学習データとしての大規模なデータセットは、テキスト-動画モデルの学習には依然として最適ではない。本研究では、大規模言語モデル(LLM)の能力を活用して、動画と整合性の高い高品質な動画説明をスケール的に得ることを提案する。具体的には、教材動画のASR字幕をもとに、LLMに現実的で妥当な動画キャプションを生成するようプロンプトする。そのため、単一の文を超えるより長い字幕テキストを考慮できるプロンプト手法を導入し、文脈情報をより正確に捉えることを可能にした。さらに、LLMに字幕のタイムスタンプに基づいて生成されたキャプションごとにタイムスタンプを付与させ、生成されたキャプションを動画の時間軸に正確に同期させる。このようにして、人間が監視しない状態でも、スケール的に人間のような動画キャプションを取得できる。本手法をHowTo100Mデータセットの字幕に適用し、新たな大規模データセット「HowToCaption」を構築した。評価結果から、生成されたキャプションは、ゼロショットテキスト-動画検索や動画キャプションの複数のベンチマークデータセットにおいて、顕著な性能向上をもたらすだけでなく、テキストの語りかけと音声の分離を促進し、テキスト-動画-音声タスクにおける性能を向上させることも示された。