Dialogue Generation On Reddit Multi Ref
评估指标
interest (human)
relevance (human)
评测结果
各个模型在此基准测试上的表现结果
比较表格
模型名称 | interest (human) | relevance (human) |
---|---|---|
jointly-optimizing-diversity-and-relevance-in | 2.53 | 2.72 |
各个模型在此基准测试上的表现结果
模型名称 | interest (human) | relevance (human) |
---|---|---|
jointly-optimizing-diversity-and-relevance-in | 2.53 | 2.72 |