2달 전

TruthfulQA: 모델이 인간의 허위를 모방하는 정도 측정

Stephanie Lin; Jacob Hilton; Owain Evans
TruthfulQA: 모델이 인간의 허위를 모방하는 정도 측정
초록

우리는 언어 모델이 질문에 대한 답변을 생성할 때 진실성을 측정하기 위한 기준(benchmark)을 제안합니다. 이 기준은 건강, 법률, 금융, 정치 등 38개 범주를 포함하는 817개의 질문으로 구성됩니다. 우리는 일부 인간들이 잘못된 믿음이나 오해로 인해 틀린 답을 할 수 있는 질문들을 작성했습니다. 좋은 성능을 내려면 모델들은 인간의 텍스트를 모방하여 학습한 틀린 답변을 피해야 합니다. 우리는 GPT-3, GPT-Neo/J, GPT-2 및 T5 기반 모델을 테스트했습니다. 최고 성능을 보인 모델은 58%의 질문에서 진실한 답변을 제공했으며, 인간의 성능은 94%였습니다. 모델들은 대중적인 오해를 본뜬 많은 틀린 답변을 생성하여 인간을 속일 가능성이 있습니다. 가장 큰 규모의 모델들은 일반적으로 가장 덜 진실한 답변을 제공했습니다. 이는 다른 자연어 처리(NLP) 작업에서는 모델 크기가 커질수록 성능이 개선되는 것과 대조됩니다. 그러나 잘못된 답변이 학습 분포(training distribution)에서 학습되었기 때문에 이러한 결과는 예상되었습니다. 우리는 단순히 모델의 규모를 확대하는 것보다 웹에서 가져온 텍스트의 모방 외에 다른 학습 목표를 사용하여 미세 조정(fine-tuning)하는 것이 진실성 개선에 더 유망하다고 제안합니다.

TruthfulQA: 모델이 인간의 허위를 모방하는 정도 측정 | 최신 연구 논문 | HyperAI초신경