2달 전

적응적으로 희소한 트랜스포머

Gonçalo M. Correia; Vlad Niculae; André F.T. Martins
적응적으로 희소한 트랜스포머
초록

어텐션 메커니즘이 자연어 처리(NLP)에서 보편적으로 사용되고 있습니다. 최근의 아키텍처, 특히 트랜스포머는 층별로 다중 헤드 어텐션을 통해 강력한 문맥 인식 단어 표현을 학습합니다. 다중 헤드는 다양한 유형의 단어 관계를 학습합니다. 그러나 표준 소프트맥스 어텐션을 사용할 경우 모든 어텐션 헤드가 밀집되어 있으며, 모든 문맥 단어에 비영향적인 가중치를 할당합니다. 본 연구에서는 문맥에 따라 유연하게 희소성을 가진 트랜스포머인 적응적 희소 트랜스포머를 소개합니다. 이 희소성은 소프트맥스를 $\alpha$-엔트맥스($\alpha$-entmax)로 대체하여 달성됩니다. $\alpha$-엔트맥스는 저 점수를 받은 단어가 정확히 영 가중치를 받도록 하는 소프트맥스의 미분 가능한 일반화입니다. 또한, $\alpha$ 매개변수 -- 이 매개변수가 $\alpha$-엔트맥스의 형태와 희소성을 제어하는 -- 를 자동으로 학습하는 방법을 도출하였습니다. 이를 통해 어텐션 헤드는 집중적이거나 분산된 행동 중 하나를 선택할 수 있습니다. 우리의 적응적 희소 트랜스포머는 기계 번역 데이터셋에서 소프트맥스 트랜스포머와 비교하여 해석 가능성을 개선하고 헤드 다양성을 증가시킵니다. 우리 접근 방식에 대한 정량적 및 정성적 분석 결과, 다른 층의 헤드들은 서로 다른 희소성 선호도를 학습하며, 그들의 어텐션 분포가 소프트맥스 트랜스포머보다 더 다양하다는 것을 확인할 수 있었습니다. 또한, 정확도에 어떠한 손실 없이, 어텐션 헤드의 희소성이 서로 다른 특화된 역할을 발견하는 데 도움이 되었습니다.

적응적으로 희소한 트랜스포머 | 최신 연구 논문 | HyperAI초신경