Answerability Prediction On Peerqa
평가 지표
Macro F1
평가 결과
이 벤치마크에서 각 모델의 성능 결과
모델 이름 | Macro F1 | Paper Title | Repository |
---|---|---|---|
Command-R-v01-34B-128k | 0.4197 | - | - |
GPT-3.5-Turbo-0613-16k | 0.3304 | Language Models are Few-Shot Learners | |
Mistral-IT-v02-7B-32k | 0.4703 | Mistral 7B | |
Llama-3-IT-8B-32k | 0.2881 | The Llama 3 Herd of Models | |
GPT-4o-2024-08-06 | 0.3087 | GPT-4 Technical Report | |
Llama-3-IT-8B-8k | 0.3112 | The Llama 3 Herd of Models |
0 of 6 row(s) selected.