Command Palette

Search for a command to run...

5일 전

루프형 언어 모델을 통한 잠재적 추론의 스케일링

루프형 언어 모델을 통한 잠재적 추론의 스케일링

초록

현대의 대규모 언어 모델(LLM)은 주로 사고 과정을 명시적인 텍스트 생성, 예를 들어 사고의 흐름(Chain-of-Thought, CoT)을 통해 수행하며, 이는 추론을 사후 훈련 단계로 연기하고 사전 훈련 데이터의 잠재력을 충분히 활용하지 못하는 문제를 야기한다. 본 연구에서는 '오우로보로스(Recursion Ouroboros)'를 모티프로 삼아 이름 붙인 Ouro를 제안하고, 오픈소스로 공개한다. Ouro는 사전 훈련 단계에 추론 능력을 내재화하는 데 초점을 맞춘, 루프형 언어 모델(LoopLM)의 일종으로, (i) 잠재 공간에서의 반복적 계산, (ii) 학습된 추론 깊이 할당을 위한 엔트로피 정규화 목적 함수, (iii) 총 7.7조 토큰 규모까지 확장 가능한 구조를 특징으로 한다. Ouro 1.4B 및 2.6B 모델은 다양한 벤치마크에서 최신 12B급 SOTA(상위 수준) LLM의 성능과 견줄 만큼 뛰어난 성능을 기록한다. 통제된 실험을 통해 이 우수성은 지식 용량의 증가 때문이 아니라, 보다 뛰어난 지식 조작 능력에 기인함을 입증하였다. 또한 LoopLM이 명시적 CoT보다 최종 출력과 더 일치하는 추론 흐름을 생성함을 보여주었다. 본 연구 결과를 통해 LoopLM가 추론 시대에 있어 새로운 규모 확장 방향의 잠재력을 지닌다는 점을 제시하고자 한다. 모델에 대한 자세한 정보는 다음 링크에서 확인할 수 있다: http://ouro-llm.github.io.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp