14일 전

사전 훈련된 Transformer를 RNN으로 미세 조정하기

Jungo Kasai, Hao Peng, Yizhe Zhang, Dani Yogatama, Gabriel Ilharco, Nikolaos Pappas, Yi Mao, Weizhu Chen, Noah A. Smith
사전 훈련된 Transformer를 RNN으로 미세 조정하기
초록

트랜스포머는 자연어 생성에서 순환 신경망(RNN)을 능가해 왔다. 그러나 이는 시퀀스 길이에 따라 주의 메커니즘의 복잡도가 제곱적으로 증가함에 따라 상당한 계산 비용을 수반한다. 최근 연구에서는 효율적인 트랜스포머 변형에 대한 관심이 높아지고 있다. 그 중에서도 선형 복잡도를 가진 순환형 변형이 자동회귀 생성에 적합한 것으로 입증되었다. 이 방법은 소프트맥스 주의를 무작위 또는 휴리스틱 특성 매핑으로 근사하지만, 학습이 어려울 수 있고 최적의 정확도를 달성하기 어려울 수 있다. 본 연구는 사전 훈련된 트랜스포머를 효율적인 순환형 형태로 전환하여 효율성을 높이면서도 정확도를 유지하는 것을 목표로 한다. 구체적으로, 사전 훈련된 트랜스포머 모델에서 소프트맥스 주의를 선형 복잡도를 가진 순환형 대체 구조로 교체한 후 미세 조정(finetune)하는 '교체-미세 조정' 절차를 제안한다. 학습된 특성 매핑을 활용함으로써, 기존 트랜스포머 및 다른 순환형 변형 대비 효율성과 정확도 사이의 균형을 개선할 수 있다. 또한, 이러한 순환형 변형을 처음부터 훈련하는 것에 비해 미세 조정 과정의 훈련 비용이 낮음을 보여준다. 자연어 처리 작업을 위한 많은 모델이 점점 더 대규모 사전 훈련된 트랜스포머에 의존하고 있는 상황에서, 본 연구는 비용이 큰 사전 훈련 과정을 반복하지 않고도 추론 효율성을 향상시킬 수 있는 실용적인 접근법을 제시한다.

사전 훈련된 Transformer를 RNN으로 미세 조정하기 | 최신 연구 논문 | HyperAI초신경