Visual Madlibs 画像記述データセット

Visual Madlibs には、10,738 枚の画像に対する 360,001 個の自然言語記述が含まれています。このデータセットは、自動的に生成された空白埋めテンプレートを使用して、人物と物体、外観、アクティビティとインタラクション、一般的なシーンまたはより広いコンテキストに関する推論など、ターゲットの説明を収集します。
Visual Madlibs には、10,738 枚の画像に対する 360,001 個の自然言語記述が含まれています。このデータセットは、自動的に生成された空白埋めテンプレートを使用して、人物と物体、外観、アクティビティとインタラクション、一般的なシーンまたはより広いコンテキストに関する推論など、ターゲットの説明を収集します。