Open Domain Question Answering On Kilt Eli5
评估指标
F1
KILT-F1
KILT-RL
R-Prec
ROUGE-L
Recall@5
评测结果
各个模型在此基准测试上的表现结果
比较表格
模型名称 | F1 | KILT-F1 | KILT-RL | R-Prec | ROUGE-L | Recall@5 |
---|---|---|---|---|---|---|
kilt-a-benchmark-for-knowledge-intensive | 16.1 | 0.0 | 0.0 | 0.0 | 19.08 | 0.0 |
模型 2 | 0.0 | 0.0 | 0.0 | 15.83 | 0.0 | 25.49 |
模型 3 | 0.0 | 0.0 | 0.0 | 17.5 | 0.0 | 25.54 |
模型 4 | 15.91 | 2.38 | 2.46 | 14.83 | 16.45 | 27.69 |
模型 5 | 14.51 | 1.79 | 1.69 | 11.0 | 14.05 | 22.92 |
hurdles-to-progress-in-long-form-question | 22.88 | 2.34 | 2.36 | 10.67 | 23.19 | 24.56 |
模型 7 | 19.23 | 0.0 | 0.0 | 0.0 | 20.55 | 0.0 |
模型 8 | 21.62 | 0.0 | 0.0 | 0.0 | 18.66 | 0.0 |
模型 9 | 15.29 | 0.0 | 0.0 | 0.0 | 15.76 | 0.0 |
模型 10 | 27.13 | 3.0 | 2.62 | 10.83 | 24.53 | 27.25 |
模型 11 | 0.0 | 0.0 | 0.0 | 18.33 | 0.0 | 28.21 |
模型 12 | 16.4 | 0.0 | 0.0 | 0.0 | 17.67 | 0.0 |
模型 13 | 17.88 | 2.01 | 1.9 | 10.67 | 17.41 | 26.92 |
模型 14 | 14.8 | 0.0 | 0.0 | 0.0 | 16.88 | 0.0 |
模型 15 | 17.07 | 0.0 | 0.0 | 0.0 | 15.45 | 0.0 |
模型 16 | 0.0 | 0.0 | 0.0 | 15.5 | 0.0 | 27.51 |