
要約
最先端の画像キャプション生成手法は、主に視覚的な特徴の改善に焦点を当てており、言語の固有特性を利用することでキャプション生成性能を向上させるという点には十分な注意が払われてきませんでした。本論文では、単語間の語彙的一貫性と文の構文パラダイムも、高品質な画像キャプションを生成するために重要であることを示します。従来のエンコーダー-デコーダーフレームワークに従い、我々は画像キャプション生成における長期依存関係と単語位置認識を強化する反射的デコーディングネットワーク(RDN)を提案します。当モデルは視覚的特徴とテキスト特徴の両方に協調的に注目し、同時に各単語が文内で占める相対的な位置を認識することにより、生成されたキャプションで伝達される情報を最大化するように学習します。我々はCOCO画像キャプションデータセット上でRDNの効果を評価し、以前の手法よりも優れた性能を達成しました。さらに実験結果から、当アプローチは複雑なシーンを説明する難易度が高いケースにおいて特に有利であることが明らかになりました。