HyperAI초신경

Explanation Generation On Whoops

평가 지표

Human (%)

평가 결과

이 벤치마크에서 각 모델의 성능 결과

비교 표
모델 이름Human (%)
breaking-common-sense-whoops-a-vision-and33
vlis-unimodal-language-models-guide-
breaking-common-sense-whoops-a-vision-and15
breaking-common-sense-whoops-a-vision-and27
vlis-unimodal-language-models-guide-
breaking-common-sense-whoops-a-vision-and68
breaking-common-sense-whoops-a-vision-and0