HyperAI초신경

Answerability Prediction On Peerqa

평가 지표

Macro F1

평가 결과

이 벤치마크에서 각 모델의 성능 결과

비교 표
모델 이름Macro F1
모델 10.4197
language-models-are-few-shot-learners0.3304
mistral-7b0.4703
the-llama-3-herd-of-models0.2881
gpt-4-technical-report-10.3087
the-llama-3-herd-of-models0.3112