VCR (Visual Commonsense Reasoning の正式名) は、視覚的な常識推論のための大規模なデータ セットです。このデータセットは画像に関する難しい質問を提起しており、マシンは質問に正しく答えることと、その答えを正当化する理由を提供することという 2 つのサブタスクを完了する必要があります。
VCR データセットには、トレーニング用に 212K、検証用に 26K、テスト用に 25K という多数の質問が含まれています。答えと理由は、110,000 を超えるユニークな映画のシーンから得られます。
做种 1
下载中 1
已完成 42
总下载 68