Command Palette
Search for a command to run...
대규모 언어 모델에서 단편적 사실성 측정하기
대규모 언어 모델에서 단편적 사실성 측정하기
Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus
초록
우리는 언어 모델이 짧고 사실 중심의 질문에 답할 수 있는 능력을 평가하는 기준인 SimpleQA를 제안한다. 이 평가를 설계할 때 두 가지 특성을 우선시하였다. 첫째, SimpleQA는 GPT-4의 응답에 대항하여 적대적으로 수집된 데이터를 기반으로 하므로 도전적인 평가가 된다. 둘째, 질문들이 단 하나의 명백하고 논란의 여지가 없는 정답을 갖도록 구성되어 있어 평가가 간편하다. SimpleQA의 각 답변은 정확, 오답, 미응답 중 하나로 평가된다. 이상적인 행동을 보이는 모델은 자신이 확신할 수 있는 정답을 아는 질문에만 응답하고, 가능한 한 많은 질문에서 정답을 제시해야 한다. SimpleQA는 모델이 ‘자신이 무엇을 아는지’를 판단할 수 있는 간결하고 집중적인 평가 기준이며, 본 연구의 기대는 이 기준이 앞으로 몇 세대에 걸쳐 최전방 모델에 대해 여전히 관련성을 유지할 수 있기를 바라는 것이다.