
要約
画像からテキストへの自動翻訳は、画像シーンの理解と言語モデリングを含みます。本論文では、デコーダー誘導型の視覚的意味情報を用いて言語デコーダーの出力語彙を精緻化し、視覚的タグ語と画像との間のマッピングを暗黙的に学習する新たなモデル、RefineCapを提案します。提示する視覚的概念精緻化(Visual-Concept Refinement)手法により、生成器は画像内の意味的詳細に注目できるようになり、より意味的に豊かなキャプションを生成することが可能になります。本モデルは、従来の視覚的概念に基づくモデルと比較して、MS-COCOデータセットにおいて優れた性能を達成しています。