17일 전

루프 신경망을 통한 파라미터 공유

Kei-Sing Ng, Qingchen Wang
루프 신경망을 통한 파라미터 공유
초록

GPT와 같은 대규모 언어 모델의 성공은 시퀀스 내 다음 토큰을 효율적으로 예측할 수 있는 능력에 기인한다. 그러나 이러한 모델은 예측하는 토큰의 복잡성에 관계없이 일정한 계산량을 요구하며, 반복적인 정교화(iterative refinement) 능력을 갖추지 못하고 있다. 본 논문에서는 모델 크기를 늘리지 않고도 더 긴 계산 시간을 활용함으로써 더 우수한 성능을 달성하는 새로운 루프 신경망(Loop Neural Network)을 제안한다. 제안하는 방법은 입력을 다수의 반복 주기를 통해 재방문하며, 잔여 연결(residual connections)을 사용해 모델의 일부를 반복적으로 순환하면서 예측을 점진적으로 개선한다. 실험을 통해 GPT-2의 다양한 버전과 본 연구의 루프 모델을 비교함으로써, 유사한 파라미터 수를 유지하면서도 언어 모델링 과제에서 성능이 향상됨을 입증하였다. 특히, 추가적인 학습 데이터 없이도 이러한 성능 향상이 달성된다는 점이 중요하다.

루프 신경망을 통한 파라미터 공유 | 최신 연구 논문 | HyperAI초신경