언어 모델에서 구성성 격차 측정 및 축소하기

언어 모델이 하위 문제들의 정답을 올바르게 조합함으로써 전체적인 해결책에 도달해야 하는 복합적 추론 작업을 수행할 수 있는 능력을 조사한다. 우리는 모델이 하위 문제들을 모두 올바르게 답할 수는 있지만 전체적인 해결책을 생성하지는 못하는 경우의 빈도를 측정하며, 이 비율을 '복합성 갭(Compositionality Gap)'이라고 정의한다. 이 비율을 평가하기 위해, 사전학습 과정에서 함께 관찰되었을 가능성은 매우 낮은 여러 사실들을 조합해야 하는 다단계 질문을 제시한다. GPT-3 계열 모델에서 모델 크기가 증가함에 따라 단일 단계 질문에 대한 성능은 다단계 성능보다 더 빠르게 향상됨을 보여주며, 이로 인해 복합성 갭은 감소하지 않는다는 결과를 도출한다. 이 놀라운 결과는 더 강력한 모델이 사실 지식을 더 많이 기억하고 재현할 수는 있지만, 이러한 종류의 복합적 추론 능력에는 그에 상응하는 향상이 없음을 시사한다.다음으로, 사전 추론 유도 프롬프팅(예: 사고의 흐름, Chain of Thought)이 명시적인 추론을 통해 복합성 갭을 좁힐 수 있음을 보여준다. 우리는 사고의 흐름보다 더 나은 성능을 보이는 새로운 방법인 '셀프어스(Self-Ask)'를 제안한다. 본 방법에서는 모델이 초기 질문에 답하기 전에 스스로 후속 질문을 제기하고 그에 답하는 방식으로 명시적인 추론을 수행한다. 마지막으로, 셀프어스의 구조화된 프롬프팅 방식을 통해 후속 질문에 대한 답변을 위해 검색 엔진을 쉽게 통합할 수 있음을 보이며, 이는 추가적으로 정확도를 향상시킨다.