17일 전
최소에서 최대로의 프롬프팅은 대규모 언어 모델에서 복잡한 추론을 가능하게 한다.
Denny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, Ed Chi

초록
사고 과정 유도(prompting)는 다양한 자연어 추론 작업에서 뛰어난 성능을 보여왔다. 그러나 프롬프트에 제시된 예시보다 더 어려운 문제를 해결해야 하는 과제에서는 성능이 떨어지는 경향이 있다. 이러한 쉬운 문제에서 어려운 문제로의 일반화 문제를 극복하기 위해, 우리는 새로운 유도 전략인 '최소에서 최대로(least-to-most)' 유도를 제안한다. 이 전략의 핵심 아이디어는 복잡한 문제를 단순한 하위 문제들로 분해하고, 이를 순차적으로 해결하는 것이다. 각 하위 문제를 해결하는 데는 이전에 해결한 하위 문제들의 답변이 도움이 된다. 기호 조작, 구성적 일반화, 수학 추론과 관련된 작업에 대한 실험 결과는, 최소에서 최대로 유도가 프롬프트에서 보인 문제보다 더 어려운 문제로의 일반화가 가능함을 보여준다. 주목할 만한 발견은, GPT-3 code-davinci-002 모델에 최소에서 최대로 유도를 적용할 경우, 단 14개의 예시만으로도 SCAN이라는 구성적 일반화 벤치마크를 길이 분할 포함 모든 분할에서 최소 99%의 정확도로 해결할 수 있다는 점이다. 반면, 사고 과정 유도를 사용할 경우 정확도는 단 16%에 그친다. 이는 특히 중요한데, 기존 문헌에서 SCAN을 해결하는 데 특화된 신경-기호적 모델들은 15,000개 이상의 예시를 포함한 전체 학습 데이터셋을 학습해야 하기 때문이다. 본 연구에서 모든 작업에 대한 프롬프트는 부록에 포함되어 있다.