Discord에서 논의하기

5달 전

지능형 질문 응답

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

초록

우리는 언어 모델이 짧고 사실 중심의 질문에 답할 수 있는 능력을 평가하는 기준인 SimpleQA를 제안한다. 이 평가를 설계할 때 두 가지 특성을 우선시하였다. 첫째, SimpleQA는 GPT-4의 응답에 대항하여 적대적으로 수집된 데이터를 기반으로 하므로 도전적인 평가가 된다. 둘째, 질문들이 단 하나의 명백하고 논란의 여지가 없는 정답을 갖도록 구성되어 있어 평가가 간편하다. SimpleQA의 각 답변은 정확, 오답, 미응답 중 하나로 평가된다. 이상적인 행동을 보이는 모델은 자신이 확신할 수 있는 정답을 아는 질문에만 응답하고, 가능한 한 많은 질문에서 정답을 제시해야 한다. SimpleQA는 모델이 ‘자신이 무엇을 아는지’를 판단할 수 있는 간결하고 집중적인 평가 기준이며, 본 연구의 기대는 이 기준이 앞으로 몇 세대에 걸쳐 최전방 모델에 대해 여전히 관련성을 유지할 수 있기를 바라는 것이다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

5달 전

지능형 질문 응답

Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus

초록

우리는 언어 모델이 짧고 사실 중심의 질문에 답할 수 있는 능력을 평가하는 기준인 SimpleQA를 제안한다. 이 평가를 설계할 때 두 가지 특성을 우선시하였다. 첫째, SimpleQA는 GPT-4의 응답에 대항하여 적대적으로 수집된 데이터를 기반으로 하므로 도전적인 평가가 된다. 둘째, 질문들이 단 하나의 명백하고 논란의 여지가 없는 정답을 갖도록 구성되어 있어 평가가 간편하다. SimpleQA의 각 답변은 정확, 오답, 미응답 중 하나로 평가된다. 이상적인 행동을 보이는 모델은 자신이 확신할 수 있는 정답을 아는 질문에만 응답하고, 가능한 한 많은 질문에서 정답을 제시해야 한다. SimpleQA는 모델이 ‘자신이 무엇을 아는지’를 판단할 수 있는 간결하고 집중적인 평가 기준이며, 본 연구의 기대는 이 기준이 앞으로 몇 세대에 걸쳐 최전방 모델에 대해 여전히 관련성을 유지할 수 있기를 바라는 것이다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

대규모 언어 모델에서 단편적 사실성 측정하기 | 문서 | HyperAI초신경