要約
視覚的物語生成(Visual Storytelling, VIST)タスクは、画像ストリームを入力として、自然で人間らしい、かつ一貫性のある物語を生成することを目的としている。近年、多くの深層学習モデルが有望な成果を上げているが、その多くは物語における感情情報(センチメント情報)を直接活用していない。本論文では、VISTタスク向けに感情に敏感な生成モデル「SentiStory」を提案する。SentiStoryの核となるのは、マルチレイヤー感情抽出モジュール(Multi-layered Sentiment Extraction Module, MLSEM)である。与えられた画像ストリームに対して、MLSEMの上位層は粗いが正確な感情を、下位層は細かいが通常は信頼性の低い感情を抽出する。これらの二つの層を戦略的に統合することで、VISTタスクに適した一貫性があり豊かな視覚的感情概念を生成する。自動評価および人間評価の両方の結果から、MLSEMの導入により、SentiStoryがより一貫性があり人間らしい物語を生成する能力が向上することが示された。