17일 전

RAFT: 실제 세계의 소수 예제 텍스트 분류 기준 평가

Neel Alex, Eli Lifland, Lewis Tunstall, Abhishek Thakur, Pegah Maham, C. Jess Riedel, Emmie Hine, Carolyn Ashurst, Paul Sedille, Alexis Carlier, Michael Noetel, Andreas Stuhlmüller
RAFT: 실제 세계의 소수 예제 텍스트 분류 기준 평가
초록

대규모 사전 훈련된 언어 모델은 몇 개의 작업 중심 예시만 제공받아도 텍스트 기반 작업을 수행할 수 있는 소수 샘플 학습(few-shot learning)에 유망한 성과를 보여주고 있다. 곧 모델이 지금까지 인간 연구 보조자에게만 맡겨졌던 분류 작업을 해결할 수 있을까? 기존의 벤치마크는 실용적 환경에서의 진보를 측정하도록 설계되지 않았기 때문에, 이 질문에 직접적인 답을 제공하지 못한다. RAFT 벤치마크(RAFT: Real-world Annotated Few-shot Tasks)는 자연 발생하는 작업에 초점을 맞추며, 실제 배포 환경과 유사한 평가 설정을 사용한다. RAFT에 대한 기준 모델 평가 결과는 현재 기술이 여전히 어려움을 겪는 영역을 드러낸다. 즉, 긴 텍스트에 대한 추론과 다수의 클래스를 포함한 작업이다. 인간 기준 모델의 결과는 일부 분류 작업이 비전문가 인간에게도 어려울 수 있음을 보여주며, 이는 현실 세계에서의 가치가 때때로 전문 지식에 의존한다는 점을 반영한다. 그러나 비전문가 인간 기준 모델의 F1 점수는 GPT-3보다 평균적으로 0.11 높게 나타났다. RAFT 데이터셋과 랭킹은 모델 개선이 실제로 어떤 실용적 이점을 가져오는지 추적할 수 있도록 제공되며, 자세한 내용은 https://raft.elicit.org 에서 확인할 수 있다.