17일 전

PartialFormer: 기계 번역을 위한 전체 대신 부분을 모델링하기

Tong Zheng, Bei Li, Huiwen Bao, Jiale Wang, Weiqiao Shan, Tong Xiao, Jingbo Zhu
PartialFormer: 기계 번역을 위한 전체 대신 부분을 모델링하기
초록

Transformer의 피드포워드 신경망(FFN)에서의 설계 선택은 상당한 계산량과 파라미터 과부하를 초래해왔다. 본 연구에서는 기존 아키텍처에서 자주 간과되곤 하는 은닉 차원(hidden dimensions)의 중요성을 강조한다. 이 원칙에 따라, 우리는 다수의 더 작은 FFN을 활용하여 파라미터와 계산량을 줄이되, 핵심적인 은닉 차원은 유지하는 파라미터 효율적인 Transformer 아키텍처인 PartialFormer을 제안한다. 이러한 작은 FFN들은 다중 헤드 어텐션 메커니즘 내에 통합되어 효과적인 협업을 가능하게 한다. 또한, PartialFormer의 성능을 향상시키기 위해 맞춤형 헤드 스케일링 전략을 제안한다. 더불어, PartialFormer 내부의 깊이 스케일링을 개선하기 위해 유사한 잔차(residual-like) 어텐션 계산 방식을 도입한다. 9개의 번역 작업과 1개의 추상적 요약 작업에 대한 광범위한 실험을 통해, PartialFormer이 기계 번역 및 요약 작업에서 효과적임을 입증하였다. 본 연구의 코드는 다음과 같은 주소에서 공개될 예정이다: https://github.com/zhengkid/PartialFormer.