5일 전

루프형 언어 모델을 통한 잠재적 추론의 스케일링

Rui-Jie Zhu Zixuan Wang Kai Hua Tianyu Zhang Ziniu Li Haoran Que Boyi Wei Zixin Wen Fan Yin He Xing

초록

현대의 대규모 언어 모델(LLM)은 주로 사고 과정을 명시적인 텍스트 생성, 예를 들어 사고의 흐름(Chain-of-Thought, CoT)을 통해 수행하며, 이는 추론을 사후 훈련 단계로 연기하고 사전 훈련 데이터의 잠재력을 충분히 활용하지 못하는 문제를 야기한다. 본 연구에서는 '오우로보로스(Recursion Ouroboros)'를 모티프로 삼아 이름 붙인 Ouro를 제안하고, 오픈소스로 공개한다. Ouro는 사전 훈련 단계에 추론 능력을 내재화하는 데 초점을 맞춘, 루프형 언어 모델(LoopLM)의 일종으로, (i) 잠재 공간에서의 반복적 계산, (ii) 학습된 추론 깊이 할당을 위한 엔트로피 정규화 목적 함수, (iii) 총 7.7조 토큰 규모까지 확장 가능한 구조를 특징으로 한다. Ouro 1.4B 및 2.6B 모델은 다양한 벤치마크에서 최신 12B급 SOTA(상위 수준) LLM의 성능과 견줄 만큼 뛰어난 성능을 기록한다. 통제된 실험을 통해 이 우수성은 지식 용량의 증가 때문이 아니라, 보다 뛰어난 지식 조작 능력에 기인함을 입증하였다. 또한 LoopLM이 명시적 CoT보다 최종 출력과 더 일치하는 추론 흐름을 생성함을 보여주었다. 본 연구 결과를 통해 LoopLM가 추론 시대에 있어 새로운 규모 확장 방향의 잠재력을 지닌다는 점을 제시하고자 한다. 모델에 대한 자세한 정보는 다음 링크에서 확인할 수 있다: http://ouro-llm.github.io.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

루프형 언어 모델을 통한 잠재적 추론의 스케일링

Rui-Jie Zhu Zixuan Wang Kai Hua Tianyu Zhang Ziniu Li Haoran Que Boyi Wei Zixin Wen Fan Yin He Xing23 more

초록

AI로 AI 구축

Hyper Newsletters

Rui-Jie Zhu Zixuan Wang Kai Hua Tianyu Zhang Ziniu Li Haoran Que Boyi Wei Zixin Wen Fan Yin He Xing