2달 전

대규모 다중태스크 언어 이해 측정

Dan Hendrycks; Collin Burns; Steven Basart; Andy Zou; Mantas Mazeika; Dawn Song; Jacob Steinhardt
대규모 다중태스크 언어 이해 측정
초록

우리는 텍스트 모델의 다중태스크 정확도를 측정하기 위한 새로운 테스트를 제안합니다. 이 테스트는 초등 수학, 미국 역사, 컴퓨터 과학, 법 등 57개의 태스크를 포함합니다. 이 테스트에서 높은 정확도를 달성하려면 모델이 광범위한 세계 지식과 문제 해결 능력을 갖추어야 합니다. 우리는 대부분의 최근 모델들이 거의 무작위로 추측하는 수준의 정확도를 보이는 반면, 가장 큰 GPT-3 모델은 평균적으로 무작위 추측보다 약 20%포인트 개선되는 것을 발견했습니다. 그러나 57개의 모든 태스크에서 최고의 모델들도 전문가 수준의 정확도에 도달하기 위해서는 아직 상당한 개선이 필요함을 확인하였습니다. 또한, 모델들은 성능이 불균형하며 자주 자신이 잘못된 때를 인지하지 못합니다. 더욱이, 윤리와 법과 같은 사회적으로 중요한 주제에서는 여전히 무작위 수준의 정확도를 보입니다. 우리의 테스트는 모델의 학술적 및 직업적 이해 범위와 깊이를 포괄적으로 평가하여 여러 태스크에서 모델을 분석하고 중요한 단점을 식별하는 데 사용될 수 있습니다.

대규모 다중태스크 언어 이해 측정 | 최신 연구 논문 | HyperAI초신경