6ヶ月前

概要

視覚的ストーリーテリングとは、写真ストリームに基づいて短編の物語を生成するタスクである。従来の視覚的キャプションと異なり、ストーリーテリングは事実的な記述に加えて、人間らしい物語の展開や意味の表現を含むことを目指している。しかし、VISTデータセットは各物語に対して固定された少数の写真しか含んでいない。その結果、視覚的ストーリーテリングの主な課題は、写真間の視覚的ギャップを物語的想像力と語りで埋めることにある。本論文では、この視覚的ギャップを埋めるための物語構成を明示的に学習する手法を提案する。訓練段階では、入力の写真スタックから1枚または複数枚の写真をランダムに削除し、欠落した写真を含む状態でも妥当な完全な物語を生成できるようにネットワークを学習させる。さらに、視覚的ストーリーテリングに適した「隠して語る（hide-and-tell）」モデルを提案する。このモデルは、写真ストリーム間の非局所的な関係を学習することを目的としており、従来のRNNベースのモデルを補完・改善する設計となっている。実験の結果、本研究で提案するhide-and-tellスキームおよびネットワーク設計がストーリーテリングにおいて実際の有効性を示し、自動評価指標において従来の最先端手法を上回ることを確認した。最後に、視覚的ギャップにおける物語の補間能力が学習されていることを定性的に示した。

ソースPDF