
要約
画像段落キャプション生成モデルは、入力画像に対する詳細な記述を生成することを目的としている。これらのモデルは標準的な画像キャプション生成モデルと類似した手法を用いるが、テキスト生成において文間の多様性の欠如といった問題に直面しており、これがその有効性を制限している。本研究では、このタスクにシーケンスレベルの学習を適用することを検討する。標準的な自己批判的学習(self-critical training)では劣った結果が得られるが、3-gramの繰り返しに対して統合的なペナルティを導入することで、はるかに多様性の高い段落生成が可能となる。このシンプルな学習アプローチにより、Visual Genome段落キャプションデータセットにおける最良スコアがCIDErで16.9から30.6に向上し、METEORおよびBLEUスコアにも改善が見られた。なお、アーキテクチャの変更を一切必要としない。