
要約
視覚的物語生成(Visual Storytelling, VST)タスクは、画像ストリームを入力として、論理的かつ一貫性のある段落レベルの物語を生成することを目的としている。キャプションとは異なり、VSTタスクにおける物語は、画像に直接現れる内容を単純に記述するのではなく、画像に存在しない多くの想像的要素を含む傾向がある。このような性質は、AIエージェントが画像の内容に基づいて、暗黙的な共通知識(commonsense)を用いて推論・関連付けを行い、画像ストリームを適切に描写する合理的な物語を生成する能力を要求する。本研究では、外部知識ベースから重要な共通知識を導入することを目的とした、共通知識を駆動する生成モデルを提案する。本手法はまず、知識ベースから候補となる複数の知識グラフを抽出する。その後、情報量の高い共通知識を効果的に統合するため、精心に設計された視覚認識を考慮した方向性エンコーディングスキームを採用する。さらに、デコード過程において出力内の意味的類似性を最大化することにより、生成テキストの一貫性を強化している。実験結果によれば、本手法は最先端のシステムを大きく上回り、CIDErスコアにおいて29%の相対的向上を達成した。さらに、共通知識および意味的関連性に基づく追加的な目的関数を導入することで、生成された物語はより多様性と一貫性を備えていることが明らかになった。