17 天前

RAFT:一个真实世界少样本文本分类基准

Neel Alex, Eli Lifland, Lewis Tunstall, Abhishek Thakur, Pegah Maham, C. Jess Riedel, Emmie Hine, Carolyn Ashurst, Paul Sedille, Alexis Carlier, Michael Noetel, Andreas Stuhlmüller
RAFT:一个真实世界少样本文本分类基准
摘要

大规模预训练语言模型在少样本学习(few-shot learning)方面展现出巨大潜力,能够仅凭少量任务相关示例完成文本类任务。那么,这些模型是否很快就能胜任以往仅由人类研究助理完成的分类任务?现有的评估基准并未针对实际应用环境设计,因此无法直接回答这一问题。为此,研究者提出了RAFT基准(Real-world Annotated Few-shot Tasks),该基准聚焦于自然发生的任务,并采用与实际部署场景相一致的评估方式。对RAFT的基线评估揭示了当前技术仍面临挑战的领域:长文本推理以及类别数量较多的任务。人类基线测试表明,部分分类任务对非专业人员而言也具有相当难度,反映出现实世界中的任务价值往往依赖于特定领域的专业知识。然而,即便是在非专业人类的基线表现中,其F1得分仍平均比GPT-3高出0.11。RAFT数据集及排行榜将持续追踪模型改进在真实应用场景中所带来的实际效益,相关资源可访问 https://raft.elicit.org 获取。