VIVO:新規オブジェクトキャプション向け視覚語彙事前学習

新しい物体を含む画像に対して、訓練データにラベル付けされたキャプションが存在しない状況でも適切なキャプションを生成できる能力は、極めて望ましい一方で、実現が困難な課題であり、この能力は「新物体キャプションチャレンジ(Novel Object Captioning, NOCAPS)」において評価される。このチャレンジでは、COCO Captions以外の画像-キャプションの訓練データをモデルの学習に使用することは許可されていない。したがって、従来の視覚言語事前学習(Vision-Language Pre-training, VLP)手法は適用できない。本論文では、キャプションラベルのない環境下で事前学習を行う「VIsual VOcabulary pretraining(VIVO)」を提案する。VLPにおける画像-キャプションペアデータに依存しないアプローチを採用することで、VIVOは大量の画像-タグペアデータを活用し、視覚的語彙(visual vocabulary)を学習することが可能となる。具体的には、画像レベルのタグとその対応する画像領域特徴を一致させる能力を学ぶ多層Transformerモデルを事前学習する。また、画像タグが順序を持たない性質を考慮し、マスクされたタグ予測とハンガリアンマッチング損失を用いて事前学習を実施する。本手法の有効性は、事前学習済みモデルを画像キャプションタスクに微調整することで検証された。さらに、モデルが学習した視覚-テキストの整合性について分析を行った。実験結果から、本モデルは新規物体を適切に記述する自然なキャプションを生成するだけでなく、その物体の位置を正確に特定することも可能であることが明らかになった。単一モデルによる成果は、NOCAPSベンチマークにおいて新たなSOTA(最先端)性能を達成し、人間のCIDErスコアを上回った。