2ヶ月前
大規模マルチタスク言語理解の測定
Dan Hendrycks; Collin Burns; Steven Basart; Andy Zou; Mantas Mazeika; Dawn Song; Jacob Steinhardt

要約
私たちは、テキストモデルのマルチタスク精度を測定する新しいテストを提案します。このテストは、初等数学、アメリカ史、コンピュータサイエンス、法律など57のタスクをカバーしています。このテストで高い精度を得るためには、モデルが広範な世界知識と問題解決能力を持つ必要があります。我々の調査では、最近のほとんどのモデルがほぼランダムな確率での精度しか持たないことがわかりましたが、最大規模のGPT-3モデルは平均してランダムな確率よりも約20パーセンテージポイント改善しています。しかし、57のタスク全てにおいて、最良のモデルでも専門家レベルの精度に達するまで大幅な改善が必要です。また、モデルの性能は偏っており、しばしば誤っていることを認識できないことがあります。さらに悪く的是非観や法律などの社会的に重要な主題については、依然としてほぼランダムな精度しか持たない場合があります。当該テストは、モデルの学術的および職業的理解の幅と深さを包括的に評価することで、多くのタスクにおけるモデル分析に使用でき、重要な欠点を特定することができます。