Command Palette
Search for a command to run...

초록
현대의 대규모 언어 모델(LLM)은 주로 사고 과정을 명시적인 텍스트 생성, 예를 들어 사고의 흐름(Chain-of-Thought, CoT)을 통해 수행하며, 이는 추론을 사후 훈련 단계로 연기하고 사전 훈련 데이터의 잠재력을 충분히 활용하지 못하는 문제를 야기한다. 본 연구에서는 '오우로보로스(Recursion Ouroboros)'를 모티프로 삼아 이름 붙인 Ouro를 제안하고, 오픈소스로 공개한다. Ouro는 사전 훈련 단계에 추론 능력을 내재화하는 데 초점을 맞춘, 루프형 언어 모델(LoopLM)의 일종으로, (i) 잠재 공간에서의 반복적 계산, (ii) 학습된 추론 깊이 할당을 위한 엔트로피 정규화 목적 함수, (iii) 총 7.7조 토큰 규모까지 확장 가능한 구조를 특징으로 한다. Ouro 1.4B 및 2.6B 모델은 다양한 벤치마크에서 최신 12B급 SOTA(상위 수준) LLM의 성능과 견줄 만큼 뛰어난 성능을 기록한다. 통제된 실험을 통해 이 우수성은 지식 용량의 증가 때문이 아니라, 보다 뛰어난 지식 조작 능력에 기인함을 입증하였다. 또한 LoopLM이 명시적 CoT보다 최종 출력과 더 일치하는 추론 흐름을 생성함을 보여주었다. 본 연구 결과를 통해 LoopLM가 추론 시대에 있어 새로운 규모 확장 방향의 잠재력을 지닌다는 점을 제시하고자 한다. 모델에 대한 자세한 정보는 다음 링크에서 확인할 수 있다: http://ouro-llm.github.io.