8日前

NarrativeBridge:因果時系列物語を活用した動画キャプション生成の向上

Asmar Nadeem, Faegheh Sardari, Robert Dawes, Syed Sameed Husain, Adrian Hilton, Armin Mustafa
NarrativeBridge:因果時系列物語を活用した動画キャプション生成の向上
要約

既存の動画キャプションベンチマークおよびモデルは、因果的・時間的な物語構造(cause-effectを介してつながるイベントの時系列的展開)を欠いており、これはキャラクターやエージェントによって駆動される動画の内容に内在する因果的・時間的ダイナミクスを正確に捉えることが難しい原因となっている。この課題を解決するため、本研究では以下の2つの要素から構成される「NarrativeBridge」を提案する:(1)大規模言語モデルと少サンプルプロンプティングを用いて生成された新しい因果的・時間的物語構造(Causal-Temporal Narrative; CTN)キャプションベンチマーク。このベンチマークは、動画記述に明示的に因果関係と時間的順序を組み込むことで、動画内の因果的・時間的関係を正確に表現することを目的としている。(2)因果と結果のダイナミクスを別々のエンコーダで捉えることができる「因果・結果ネットワーク(Cause-Effect Network; CEN)」。この構造により、因果的・時間的物語構造を有するキャプションの効果的な学習と生成が可能となる。広範な実験により、CENが最先端モデルを大きく上回ることを示した。特に、MSVD-CTNおよびMSRVTT-CTNデータセットにおいて、それぞれCIDErスコア17.88および17.44を達成した。データセット間での評価結果からも、CENの優れた汎化能力が明らかになった。本研究で提案するフレームワークは、動画に内在する複雑な因果的・時間的物語構造を理解し、そのニュアンスを反映した高精度なテキスト記述を生成可能であり、動画キャプション分野における重要な限界を克服するものである。プロジェクト詳細については、https://narrativebridge.github.io/ をご参照ください。

NarrativeBridge:因果時系列物語を活用した動画キャプション生成の向上 | 最新論文 | HyperAI超神経