17일 전

DeLighT: 딥하고 경량화된 트랜스포머

Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer, Hannaneh Hajishirzi
DeLighT: 딥하고 경량화된 트랜스포머
초록

우리는 표준 트랜스포머 기반 모델과 유사하거나 더 우수한 성능을 제공하면서도 훨씬 적은 파라미터를 사용하는 깊이 있고 가벼운 트랜스포머 모델인 DeLighT를 소개한다. DeLighT는 (1) 각 트랜스포머 블록 내에서 'DeLighT 변환'이라 불리는 깊이 있고 가벼운 변환을 활용하여 파라미터를 더 효율적으로 배분하고, (2) 블록 단위 스케일링을 통해 입력 근처에서는 얕고 좁은 DeLighT 블록, 출력 근처에서는 넓고 깊은 DeLighT 블록을 설계함으로써 블록 간에도 파라미터를 효율적으로 분배한다. 전체적으로 DeLighT 네트워크는 표준 트랜스포머 모델보다 2.5~4배 깊지만, 파라미터 수와 연산량은 더 적다. 기준 기계 번역 및 언어 모델링 작업에서의 실험 결과, DeLighT는 평균적으로 기준 트랜스포머 모델보다 2~3배 적은 파라미터로 동일하거나 더 뛰어난 성능을 달성함을 확인하였다. 본 연구의 소스 코드는 다음에서 공개되어 있다: \url{https://github.com/sacmehta/delight}

DeLighT: 딥하고 경량화된 트랜스포머 | 최신 연구 논문 | HyperAI초신경