E-snli-ve 大規模視覚言語データセット

e-SNLI-VE は、自然言語説明を備えた大規模な視覚言語データセットであり、430,000 を超えるインスタンスが含まれており、すべての説明は画像コンテンツに基づいています。このデータセットは、e-SNLI データセットの説明と SNLI-VE データセットの画像と文のペアを結合することによって構築されます。
e-SNLI-VE は、自然言語説明を備えた大規模な視覚言語データセットであり、430,000 を超えるインスタンスが含まれており、すべての説明は画像コンテンツに基づいています。このデータセットは、e-SNLI データセットの説明と SNLI-VE データセットの画像と文のペアを結合することによって構築されます。