2달 전

메모리 효율적인 확률적 방법론을 이용한 메모리 기반 트랜스포머의 구현

Vishwajit Kumar Vishnu; C. Chandra Sekhar
메모리 효율적인 확률적 방법론을 이용한 메모리 기반 트랜스포머의 구현
초록

메모리 기반 트랜스포머를 훈련시키는 것은 많은 메모리를 필요로 하며 효율성이 떨어질 수 있습니다. 본 연구에서는 메모리 기반 트랜스포머의 훈련 효율성을 개선하기 위한 새로운 두 단계 훈련 메커니즘과 새로운 정규화 기법을 제안합니다. 메모리 기반 트랜스포머 모델 중 하나인 트랜스포머-XL을 베이스라인 모델로 사용하여 실험을 수행하였습니다. 결과적으로, 파라미터 수가 유사한 문자 단위 언어 모델링 작업에서 베이스라인보다 우수한 성능을 보이는 스킵 크로스-헤드 트랜스포머XL(Skip Cross-head TransformerXL) 모델을 제시하였으며, 단어 단위 언어 모델링 작업에서는 베이스라인보다 약 20% 적은 파라미터로도 더 나은 성능을 나타냈습니다. 제안된 방법들은 추가적인 메모리를 요구하지 않습니다. 또한, BERT에 적용한 정규화 메커니즘의 효과를 다중 GLUE 작업에서 표준편차가 약 30% 감소하는 유사한 성능으로 입증하였습니다.

메모리 효율적인 확률적 방법론을 이용한 메모리 기반 트랜스포머의 구현 | 최신 연구 논문 | HyperAI초신경