画像段落キャプション データセットは、画像に対して生成された説明スニペットを評価するために使用できます。このデータセットには、Visual Genome データセットからの 19,561 個の画像が含まれています。各画像には段落が含まれています。トレーニング/評価/テスト セットには、それぞれ 14,575、2,487、2,489 個の画像が含まれています。
各画像には、50 の領域説明 (画像の特定の部分を説明するフレーズ)、35 のオブジェクト、26 の属性と 21 の関係、および 17 の質問と回答のペアも含まれています。