
要約
ストーリー可視化は、複数文からなるストーリーの各文を対応する画像のシーケンスとして生成することを目的とする。動画生成が生成された画像(フレーム)間の連続性を重視するのに対し、ストーリー可視化は異なるストーリー画像間における登場人物やシーンのグローバルな一貫性を保つことに重点を置く。これは、ストーリー文が画像生成に向けた情報として疎な信号しか提供しないため、非常に困難な課題である。この課題に対処するため、本研究では「キャラクター保持型一貫的ストーリー可視化(Character-Preserving Coherent Story Visualization, CP-CSV)」と呼ばれる新たなフレームワークを提案する。CP-CSVは、以下の3つの重要なモジュールによって、ストーリーの効果的な可視化を実現する:ストーリー・コンテキストエンコーダ(ストーリーおよび文の表現学習)、図形・背景セグメンテーション(キャラクターおよびストーリーの一貫性を維持するための補助タスクとしての情報提供)、図形・背景認識型生成(図形・背景情報を組み込んだ画像シーケンス生成)。さらに、ストーリー可視化の性能を評価するための新たな指標として「Fr'{e}chet ストーリー距離(Fr'{e}chet Story Distance, FSD)」を提案する。広範な実験により、CP-CSVが登場人物の詳細情報を保持しつつ、異なるフレーム間で高い一貫性を達成できること、またFSDがストーリー可視化の性能をより適切に測定できることを確認した。