12日前
階層的シーングラフエンコーダ-デコーダによる画像パラグラフキャプション生成
{and Jianfei Cai, Hanwang Zhang, Chongyang Gao, Xu, Yang}
要約
人間が画像について長い段落を述べる際、通常はまず内面的に「ストーリー(脚本)」を構成し、その脚本に従って段落を生成する。このプロセスに着想を得て、本研究では階層的シーングラフエンコーダ-デコーダ(HSGED)を提案し、現代のエンコーダ-デコーダ型画像段落キャプションモデルに、一貫性があり特徴的な段落生成能力を付与する。特に、画像のシーングラフを「脚本」として用いることで、豊かな意味知識をモデルに組み込み、さらに重要なことに階層的な制約を導入する。具体的には、部分グラフレベルのトピックを生成するための文のシーングラフRNN(SSG-RNN)を設計し、そのトピックが単語のシーングラフRNN(WSG-RNN)による対応する文の生成を制約する。SSG-RNNにおいて冗長性のないアテンション(irredundant attention)を導入することで、頻繁に描写されない部分グラフからトピックをより効果的に抽出する可能性が向上し、WSG-RNNではアテンションの継承機構を活用して抽出されたトピックに基づき、より現実に根ざした文を生成する。これらの機構により、より特徴的で一貫性のある段落が生成される。さらに、生成された文の順序が正解段落の順序と類似するよう促す効率的な文レベル損失関数も提案する。提案手法HSGEDはスタンフォード画像段落データセット上で検証され、従来の最先端性能を上回る36.02のCIDEr-Dスコアを達成するとともに、さまざまな評価指標においてより一貫性と特徴性に優れた段落を生成することを実証した。