2 个月前
GLUE:自然语言理解的多任务基准和分析平台
Alex Wang; Amanpreet Singh; Julian Michael; Felix Hill; Omer Levy; Samuel R. Bowman

摘要
为了使自然语言理解(NLU)技术在实际应用和科学研究中发挥最大效用,它必须具备通用性:即能够以不局限于任何特定任务或数据集的方式处理语言。为实现这一目标,我们引入了通用语言理解评估基准(GLUE),这是一种用于评估和分析模型在多种现有NLU任务中的性能的工具。GLUE对模型类型没有特定要求,但它鼓励跨任务共享知识,因为某些任务的训练数据非常有限。此外,我们还提供了一套手工构建的诊断测试套件,能够对NLU模型进行详细的语言学分析。我们基于当前的多任务学习和迁移学习方法评估了基线模型,并发现它们并没有立即显著提高相对于每个任务单独训练模型的整体性能,这表明在开发通用且稳健的NLU系统方面仍有改进的空间。