2 个月前

测量大规模多任务语言理解

Dan Hendrycks; Collin Burns; Steven Basart; Andy Zou; Mantas Mazeika; Dawn Song; Jacob Steinhardt
测量大规模多任务语言理解
摘要

我们提出了一种新的测试方法,用于衡量文本模型的多任务准确性。该测试涵盖了57项任务,包括基础数学、美国历史、计算机科学、法律等。为了在这一测试中获得高分,模型必须具备广泛的世界知识和解决问题的能力。我们发现,尽管大多数近期模型的准确率接近随机水平,但最大的GPT-3模型在平均准确率上比随机水平提高了近20个百分点。然而,在这57项任务中的每一项,最佳模型仍需大幅改进才能达到专家级的准确率。此外,这些模型的表现存在偏斜现象,经常无法判断自己何时出错。更严重的是,它们在一些社会重要主题(如道德和法律)上的准确率仍然接近随机水平。通过全面评估模型在学术和专业领域的广度和深度理解能力,我们的测试可以用于分析多种任务下的模型表现,并识别其重要的不足之处。