Command Palette

Search for a command to run...

2달 전

기억을 넘어서: 반복, 기억 및 테스트 시 계산 능력 확장을 통한 추론 깊이의 확장

기억을 넘어서: 반복, 기억 및 테스트 시 계산 능력 확장을 통한 추론 깊이의 확장

초록

추론은 대규모 언어 모델의 핵심 능력이지만, 이러한 모델이 어떻게 다단계 추론을 학습하고 수행하는지에 대한 이해는 여전히 미해결 과제로 남아 있다. 본 연구에서는 세포자동기( cellular automata) 프레임워크 내에서 다양한 아키텍처와 학습 방법이 모델의 다단계 추론 능력에 미치는 영향을 탐구한다. 무작위 초기 조건 하에서 무작위 부울 함수를 사용해 생성된 상태 시퀀스에 대해 훈련함으로써 기억화(memorization)를 배제한 결과, 대부분의 신경망 아키텍처가 숨겨진 규칙을 추상화하는 방식으로 학습하는 것을 확인했다. 모델은 다음 상태 예측에서 높은 정확도를 달성하지만, 다단계 추론이 요구될 경우 성능이 급격히 저하된다. 본 연구는 모델의 깊이 증가가 순차적 계산에 있어 결정적인 역할을 함을 확인하였다. 또한, 반복( recurrence), 메모리, 테스트 시 계산 자원 확장(test-time compute scaling)을 통해 효과적 모델 깊이를 확장할 경우, 추론 능력이 상당히 향상됨을 입증하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp