Command Palette
Search for a command to run...
Akshit Sinha Arvindh Arun Shashwat Goel Steffen Staab Jonas Geiping

초록
대규모 언어 모델(LLM)의 지속적인 규모 확장이 점점 더 낮은 수익을 가져오는가? 실제 세계에서의 가치는 에이전트가 수행할 수 있는 작업의 길이에 크게 달려 있다. 본 연구는 단순하지만 직관에 반하는 사실에 주목한다. 즉, 단일 단계 정확도의 경미한 향상이 모델이 성공적으로 완료할 수 있는 작업의 길이에 지수적 개선을 가져올 수 있다는 점이다. 그 후, 단순한 작업을 더 길게 만들었을 때 LLM이 실패하는 원인은 추론 능력 부족이 아니라 실행 과정에서의 오류에 기인한다는 점을 주장한다. 우리는 장기적 목표를 달성하기 위해 필요한 지식과 계획을 명시적으로 제공함으로써 실행 능력을 분리하고 평가하는 방안을 제안한다. 실험 결과, 작은 모델이 단일 단계 정확도 100%를 달성한 상태에서도 더 큰 모델이 훨씬 더 많은 단계를 정확히 수행할 수 있음을 확인했다. 또한, 모델의 단계별 정확도가 단계 수가 증가함에 따라 저하됨을 관찰했다. 이 현상은 단순히 긴 컨텍스트 처리 한계 때문만은 아니다. 흥미롭게도, 모델이 이전 단계에서 발생한 오류가 포함된 컨텍스트를 처리할수록 오류를 범할 가능성이 높아지는 ‘자기조건화(self-conditioning)’ 효과를 관찰했다. 이 자기조건화 현상은 모델 규모를 단순히 증가시켜도 줄어들지 않는다. 반면, 최근 개발된 사고형 모델(thinking models)은 자기조건화 현상이 없으며, 단일 단계 내에서 훨씬 더 긴 작업을 수행할 수 있다. 본 연구는 최신 사고형 모델들이 단일 단계에서 수행할 수 있는 작업 길이를 기준으로 평가하여 마무리한다. 전반적으로, 실행 능력에 초점을 맞춤으로써 LLM이 복잡한 추론 문제를 해결할 수는 있지만 단순한 작업을 길게 만들면 실패하는 현상에 대한 논쟁을 조율하고, 장기적 목표를 가진 작업에서 모델 규모 확장과 순차적 테스트 시간 계산 자원의 확대가 가져오는 막대한 이점을 강조하고자 한다.