
要約
画像パラグラフ生成とは、画像の視覚的な内容を描写する一貫性のある物語(通常はパラグラフ)を生成するタスクです。しかし、特に実際の画像では複数の描写的で多様な要点を考慮してパラグラフを生成することが必要となるため、この問題は簡単ではありません。有効な問いは、画像から言及に値するようなこれらの要点やトピックをどのように抽出し、一つのトピックから別のトピックへと全体的に一貫性のある構造で画像を描写するかということです。本論文では、新しい設計である畳み込み自己符号化器(Convolutional Auto-Encoding: CAE)を提案します。これは純粋に畳み込みと逆畳み込みの自己符号化フレームワークを使用して、画像の領域レベル特徴に対するトピックモデリングを行うものです。さらに、学習されたトピックを統合してパラグラフ生成を支援する新規アーキテクチャであるCAE-LSTM(Convolutional Auto-Encoding plus Long Short-Term Memory)も提案します。技術的には、CAE-LSTMは注意メカニズムを持つ2段階LSTMベースのパラグラフ生成フレームワークを利用しています。パラグラフレベルのLSTMはパラグラフ内の文間依存関係を捉え、文レベルのLSTMは各学習されたトピックに基づいて一つの文を生成します。スタンフォード大学の画像パラグラフデータセット上で広範な実験が行われ、最先端手法と比較して優れた結果が報告されています。特に注目に値するのは、CAE-LSTMがCIDEr性能を20.93%から25.15%に向上させたことです。