Home News Papers Tutorials Datasets Wiki SOTA LLM Models GPU Leaderboard Events

English

Common Sense Reasoning On Big Bench Date

Metrics

Accuracy

Results

Performance results of various models on this benchmark

Model Name	Accuracy	Paper Title	Repository
GPT-NeoX 20B (few-shot, k=3)	45.60	BloombergGPT: A Large Language Model for Finance
PaLM 2 (few-shot, k=3, CoT)	91.2	PaLM 2 Technical Report
PaLM 540B (few-shot,k=3)	53.6	BloombergGPT: A Large Language Model for Finance
Gopher-280B (few-shot, k=5)	44.1	Scaling Language Models: Methods, Analysis & Insights from Training Gopher
PaLM 2 (few-shot, k=3, Direct)	74.0	PaLM 2 Technical Report
OPT 66B (few-shot, k=3)	49.60	BloombergGPT: A Large Language Model for Finance
Bloomberg GPT 50B (few-shot, k=3)	54.8	BloombergGPT: A Large Language Model for Finance
Chinchilla-70B (few-shot, k=5)	52.3	Training Compute-Optimal Large Language Models
BLOOM 176B (few-shot, k=3)	50.00	BloombergGPT: A Large Language Model for Finance

0 of 9 row(s) selected.