9일 전

주의가 빠른 순환과 만날 때: 계산량을 줄인 채 언어 모델 훈련하기

Tao Lei
주의가 빠른 순환과 만날 때: 계산량을 줄인 채 언어 모델 훈련하기
초록

대규모 언어 모델의 훈련은 계산 시간과 비용이 점점 증가함에 따라 점점 더 어려워지고 있다. 본 연구에서는 시계열 모델링을 위해 빠른 순환 구조와 주의 메커니즘을 결합한 고성능 아키텍처인 SRU++를 제안한다. SRU++는 강력한 모델링 능력과 뛰어난 훈련 효율성을 동시에 갖추고 있다. Enwik8, Wiki-103, Billion Word와 같은 표준 언어 모델링 데이터셋에서, 최고 성능을 보이는 트랜스포머 모델보다 3배에서 10배 이상 적은 훈련 비용으로 더 낮은 문자당 비트 수(bits-per-character)와 난이도(perplexity)를 달성하였다. 예를 들어, 8개 GPU를 사용한 머신에서 단 1.6일간의 훈련만으로도 Enwik8 데이터셋에서 최신 기술 수준의 성능을 달성하였다. 또한, SRU++가 거의 최고 수준의 성능을 얻기 위해 거의 주의 메커니즘을 사용하지 않아도 된다는 점을 추가로 입증하였다. 본 연구 결과는 적은 주의 메커니즘과 빠른 순환 구조를 공동으로 활용하는 것이 모델 훈련 및 추론 속도를 가속화하는 유망한 방향임을 시사한다.

주의가 빠른 순환과 만날 때: 계산량을 줄인 채 언어 모델 훈련하기 | 최신 연구 논문 | HyperAI초신경