要約
画像誘導型物語終結生成(Image-guided Story Ending Generation: IgSEG)は、与えられた複数文からなる物語の筋書きと、終結に関連する画像を用いて物語の結末を生成するという、物語生成の一種として最近提案されたタスクである。従来の画像キャプション生成タスクや物語終結生成タスクとは異なり、IgSEGは文脈的な論理と関連する視覚的コンセプトの両方に適合する事実に基づいた記述を生成することを目指している。これまでのIgSEGに関する手法は、マルチモーダル情報間の関係性を無視しており、マルチモーダル特徴の統合も適切に行われていない。本研究では、このような課題を解決するために、エンドツーエンドのフレームワークとしてマルチモーダルメモリトランスフォーマー(Multimodal Memory Transformer: MMT)を提案する。MMTは、文脈情報と視覚情報の両方をモデル化・統合し、IgSEGにおけるマルチモーダル依存関係を効果的に捉えることを目的としている。まず、モダリティ固有の大規模事前学習エンコーダーを用いて、テキスト特徴と視覚特徴を別々に抽出する。次に、メモリ拡張型クロスモーダルアテンションネットワークを活用して、クロスモーダル間の関係を学習し、細粒度な特徴統合を実現する。最後に、マルチモーダルトランスフォーマーのデコーダーがマルチモーダル特徴間のアテンションを構築し、物語内の依存関係を学習することで、情報量豊かで妥当かつ一貫性のある物語終結を生成する。実験結果において、広範な自動評価と人間評価の両方から、提案するMMTが2つのベンチマークデータセットにおいて、最先端手法と比較して顕著な性能向上を示していることが確認された。