한 달 전

프라이머: 언어 모델링을 위한 효율적인 트랜스포머 탐색

David R. So; Wojciech Mańke; Hanxiao Liu; Zihang Dai; Noam Shazeer; Quoc V. Le

초록

대형 트랜스포머 모델은 최근 자연어 처리 분야의 발전에 중심적인 역할을 해왔습니다. 그러나 이러한 모델의 학습 및 추론 비용은 급속히 증가하여 매우 비싸게 되었습니다. 이 연구에서는 더 효율적인 변형체를 찾아 트랜스포머의 비용을 줄이는데 목표를 두고 있습니다. 기존 접근 방식과 달리, 우리의 탐색은 트랜스포머 TensorFlow 프로그램을 정의하는 기본 요소들 위에서 더 낮은 수준으로 수행됩니다. 우리는 '프라이머(Primer)'라는 이름의 아키텍처를 식별하였습니다. 이 아키텍처는 원래 트랜스포머와 다른 변형체들보다 자동 회귀 언어 모델링에 있어 더 작은 학습 비용을 가집니다.프라이머의 개선점은 대부분 두 가지 간단한 수정 덕분입니다: ReLU 활성화 함수를 제곱하고, 자기 주목력(self-attention)에서 각 Q, K, V 투영 후에 깊이별 컨볼루션 레이어를 추가합니다. 실험 결과, 프라이머는 계산 규모가 증가함에 따라 트랜스포머 대비 성능 향상률이 더욱 커지고, 최적 모델 크기에서 품질과 관련하여 지수 법칙을 따르는 것으로 나타났습니다. 또한 우리는 경험적으로 프라이머가 추가 조정 없이 다양한 코드베이스에 적용되어 학습 속도를 크게 높일 수 있음을 확인하였습니다. 예를 들어, 5억 개 매개변수 크기에서 프라이머는 C4 자동 회귀 언어 모델링에서 원래 T5 아키텍처보다 성능을 향상시키며, 학습 비용을 4배로 줄였습니다.또한, 감소된 학습 비용은 프라이머가 목표 단발(one-shot) 성능에 도달하기 위해 필요한 계산량을 크게 줄이는 것을 의미합니다. 예를 들어, GPT-3 XL과 유사한 19억 개 매개변수 설정에서 프라이머는 트랜스포머와 동일한 단발 성능을 달성하기 위해 학습 계산량의 1/3만 사용합니다. 우리는 재현성을 돕기 위해 우리의 모델들과 T5에서 여러 비교 사례들을 오픈 소스로 공개하였습니다.