3ヶ月前

イメージし、推論し、執筆する:グラフ知識と関係性推論を活用した視覚的物語生成

{and Ruifeng Xu, Xiang Ao, Ying Shen, Chengming Li, Min Yang, Chunpu Xu}
イメージし、推論し、執筆する:グラフ知識と関係性推論を活用した視覚的物語生成
要約

視覚的ストーリーテリングとは、写真ストリームに基づいて短編の物語を生成するタスクである。視覚的キャプションとは異なり、物語は画像に実際に存在する事実の記述に加えて、画像には現れない想像的な要素も含む。本稿では、人間が物語を執筆する際の論理を参考に、新たな「想像・推論・生成」フレームワーク(IRW:Imagine-Reason-Write)を提案する。まず、想像モジュールを用いて、物語の展開を明示的に学習することで、生成された物語の整合性および妥当性を向上させる。次に、物語の展開を基に、関係性推論手法を用いて、外部知識(共通知識ベース)およびタスク固有の知識(シーングラフおよびイベントグラフ)を包括的に活用する推論モジュールを導入する。これにより、画像内の対象間の最も情報量の高い共通知識および視覚的関係を効果的に捉えることが可能となり、生成される物語の多様性と情報量が向上する。最後に、想像された概念と関係性知識を統合し、元の画像の意味を尊重しつつ、人間らしい自然な物語を生成する。標準ベンチマークデータセット(VIST)を用いた広範な実験により、提案するIRWフレームワークが複数の評価指標において、既存の最先端手法を顕著に上回ることが確認された。