Ask Me Anything: 언어 모델 프롬프팅을 위한 간단한 전략

대규모 언어 모델(LLM)은 추가 학습 없이 자연어 프롬프트 하나만 제공받아도 새로운 작업에 잘 전이된다. 이 프롬프트는 작업 수행 방법을 예시로 보여주기만 하면 된다. 그러나 프롬프트는 매우 취약한 과정을 겪으며, 프롬프트의 미세한 변경만으로도 모델의 예측 결과에 큰 변동이 생기기 때문에, 특정 작업에 대해 완벽한 프롬프트를 신중하게 설계하는 데 많은 노력을 기울이고 있다. 프롬프트 설계에 드는 과도한 노력의 문제를 완화하기 위해, 우리는 다수의 효과적이나 완벽하지 않은 프롬프트를 생성하고 이를 집계하는 방식이 고품질의 프롬프트 전략을 도출할 수 있는지 여부를 탐구한다. 이러한 관찰을 바탕으로, 우리는 ASK ME ANYTHING(AMA)라는 새로운 프롬프트 전략을 제안한다. 먼저, 효과적인 프롬프트 형식에 대해 이해를 넓히며, 모델의 출력을 개방형 생성을 유도하는 질문-답변(QA) 형식의 프롬프트(예: “누가 공원에 갔는가?”)가 모델 출력을 제한하는 형식(예: “존이 공원에 갔다. 참 또는 거짓을 출력하라.”)보다 더 뛰어난 성능을 보임을 발견하였다. 본 연구의 접근법은 LLM 자체를 반복적으로 활용하여 작업 입력을 효과적인 QA 형식으로 변환하는 방식이다. 수집된 프롬프트를 사용하여 입력의 진짜 레이블에 대해 여러 개의 노이즈 있는 투표를 얻는다. 우리는 프롬프트 간 정확도가 매우 다를 뿐만 아니라 복잡한 종속성 관계를 가진다는 점을 발견하였고, 이를 해결하기 위해 노이즈 있는 예측을 결합하는 약한 감독(weak supervision) 기법을 제안하여 최종 예측을 생성한다. AMA는 오픈소스 모델 패밀리(예: EleutherAI, BLOOM, OPT, T0) 및 다양한 모델 크기(125M~175B 파라미터)에 걸쳐 평가되었으며, few-shot 기준 대비 평균 10.2%의 성능 향상을 입증하였다. 이 간단한 전략을 통해 오픈소스 GPT-J-6B 모델이 20개의 주요 벤치마크 중 15개에서 few-shot GPT3-175B의 성능을 따라가거나 초과하는 결과를 보였다. 이러한 작업들에 대해 평균적으로 GPT-J-6B 모델은 few-shot GPT3-175B보다 뛰어난 성능을 기록하였다. 코드는 아래 링크에서 공개된다: https://github.com/HazyResearch/ama_prompting