Command Palette
Search for a command to run...
루프형 언어 모델을 통한 잠재적 추론의 스케일링
루프형 언어 모델을 통한 잠재적 추론의 스케일링
초록
현대의 대규모 언어 모델(LLM)은 주로 사고 과정을 명시적인 텍스트 생성, 예를 들어 사고의 흐름(Chain-of-Thought, CoT)을 통해 수행하며, 이는 추론을 사후 훈련 단계로 연기하고 사전 훈련 데이터의 잠재력을 충분히 활용하지 못하는 문제를 야기한다. 본 연구에서는 '오우로보로스(Recursion Ouroboros)'를 모티프로 삼아 이름 붙인 Ouro를 제안하고, 오픈소스로 공개한다. Ouro는 사전 훈련 단계에 추론 능력을 내재화하는 데 초점을 맞춘, 루프형 언어 모델(LoopLM)의 일종으로, (i) 잠재 공간에서의 반복적 계산, (ii) 학습된 추론 깊이 할당을 위한 엔트로피 정규화 목적 함수, (iii) 총 7.7조 토큰 규모까지 확장 가능한 구조를 특징으로 한다. Ouro 1.4B 및 2.6B 모델은 다양한 벤치마크에서 최신 12B급 SOTA(상위 수준) LLM의 성능과 견줄 만큼 뛰어난 성능을 기록한다. 통제된 실험을 통해 이 우수성은 지식 용량의 증가 때문이 아니라, 보다 뛰어난 지식 조작 능력에 기인함을 입증하였다. 또한 LoopLM이 명시적 CoT보다 최종 출력과 더 일치하는 추론 흐름을 생성함을 보여주었다. 본 연구 결과를 통해 LoopLM가 추론 시대에 있어 새로운 규모 확장 방향의 잠재력을 지닌다는 점을 제시하고자 한다. 모델에 대한 자세한 정보는 다음 링크에서 확인할 수 있다: http://ouro-llm.github.io.