Home News Papers Tutorials Datasets Wiki SOTA LLM Models GPU Leaderboard Events

English

Common Sense Reasoning On Big Bench Sports

Metrics

Accuracy

Results

Performance results of various models on this benchmark

Model Name	Accuracy	Paper Title	Repository
OPT 66B (few-shot, k=3)	54.4	BloombergGPT: A Large Language Model for Finance
GPT-NeoX (few-shot, k=3)	53.2	BloombergGPT: A Large Language Model for Finance
Bloomberg GPT (few-shot, k=3)	62.8	BloombergGPT: A Large Language Model for Finance
Chinchilla-70B (few-shot, k=5)	71	Training Compute-Optimal Large Language Models
PaLM 2(few-shot, k=3, CoT)	98	PaLM 2 Technical Report
Gopher-280B (few-shot, k=5)	54.9	Scaling Language Models: Methods, Analysis & Insights from Training Gopher
PaLM 540B (few-shot, k=3)	80.4	BloombergGPT: A Large Language Model for Finance
PaLM 2 (few-shot, k=3, Direct)	90.8	PaLM 2 Technical Report

0 of 8 row(s) selected.