Question Answering On Muld Hotpotqa
評価指標
BLEU-1
BLEU-4
METEOR
Rouge-L
評価結果
このベンチマークにおける各モデルのパフォーマンス結果
比較表
モデル名 | BLEU-1 | BLEU-4 | METEOR | Rouge-L |
---|---|---|---|---|
muld-the-multitask-long-document-benchmark | 30.38 | 16.76 | 4.98 | 30.49 |
muld-the-multitask-long-document-benchmark | 28.11 | 13.63 | 4.46 | 27.61 |