ビジュアル常識テスト

ビジュアル・コモンセンス・テストは、自然言語処理の分野におけるサブタスクであり、モデルが視覚的なシーンで一般的な常識を理解しているかどうかを評価することを目指しています。このタスクでは、5,000以上の対象物に対して色、形状、素材、サイズ、および視覚的共起という5つの属性を予測します。目的は、モデルの複雑な視覚環境での推論と判断能力を向上させ、実世界のアプリケーションでの堅牢性と汎化能力を改善することです。

ビジュアル常識テスト | SOTA | HyperAI超神経