HyperAIHyperAI

Command Palette

Search for a command to run...

GLUE:自然语言理解的多任务基准和分析平台

Alex Wang¹, Amanpreet Singh¹, Julian Michael², Felix Hill³, Omer Levy² & Samuel R. Bowman¹

摘要

为了使自然语言理解(NLU)技术在实际应用和科学研究中发挥最大效用,它必须具备通用性:即能够以不局限于任何特定任务或数据集的方式处理语言。为实现这一目标,我们引入了通用语言理解评估基准(GLUE),这是一种用于评估和分析模型在多种现有NLU任务中的性能的工具。GLUE对模型类型没有特定要求,但它鼓励跨任务共享知识,因为某些任务的训练数据非常有限。此外,我们还提供了一套手工构建的诊断测试套件,能够对NLU模型进行详细的语言学分析。我们基于当前的多任务学习和迁移学习方法评估了基线模型,并发现它们并没有立即显著提高相对于每个任务单独训练模型的整体性能,这表明在开发通用且稳健的NLU系统方面仍有改进的空间。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供