HyperAI超神経

Open Domain Question Answering On Kilt Eli5

評価指標

F1
KILT-F1
KILT-RL
R-Prec
ROUGE-L
Recall@5

評価結果

このベンチマークにおける各モデルのパフォーマンス結果

比較表
モデル名F1KILT-F1KILT-RLR-PrecROUGE-LRecall@5
kilt-a-benchmark-for-knowledge-intensive16.10.00.00.019.080.0
モデル 20.00.00.015.830.025.49
モデル 30.00.00.017.50.025.54
モデル 415.912.382.4614.8316.4527.69
モデル 514.511.791.6911.014.0522.92
hurdles-to-progress-in-long-form-question22.882.342.3610.6723.1924.56
モデル 719.230.00.00.020.550.0
モデル 821.620.00.00.018.660.0
モデル 915.290.00.00.015.760.0
モデル 1027.133.02.6210.8324.5327.25
モデル 110.00.00.018.330.028.21
モデル 1216.40.00.00.017.670.0
モデル 1317.882.011.910.6717.4126.92
モデル 1414.80.00.00.016.880.0
モデル 1517.070.00.00.015.450.0
モデル 160.00.00.015.50.027.51