정보 경로 가설: 트랜스포머는 동적 자체 앙상블이다

Transformers는 장거리 연결에 매우 유연한 밀집형 자기주의(self-attention) 메커니즘을 사용한다. 깊이 있는 Transformer의 여러 층을 거치면서 가능한 연결 패턴의 수는 지수적으로 증가한다. 그러나 이러한 연결 패턴 중 성능에 기여하는 것은 극히 소수이며, 더욱이 핵심적인 기여를 하는 것은 그보다 훨씬 적다. 우리는 Transformer 내부에 정보 흐름 경로(information pathways)라 불리는 희소하게 연결된 하위 네트워크가 존재한다고 가정한다. 이러한 경로들은 독립적으로 학습될 수 있다. 그러나 이러한 경로들은 동적(즉, 입력에 따라 달라지는) 성격을 지니고 있어 학습 중에 밀집형 자기주의를 단순히 절단하는 것은 어렵다. 그러나 이러한 경로들의 전반적인 분포는 종종 예측 가능하다. 이 사실을 활용하여, 자기주의의 메모리 및 계산 비용을 학습 중에 4~8배까지 감소시킬 수 있는 일반적인 학습 전략인 확률적 하위 샘플링 자기주의(Stochastically Subsampled self-Attention, SSA)를 제안한다. 또한 이 방법은 밀집형 학습 대비 일반화 성능을 향상시키는 정규화(regularization) 효과도 갖는다. 우리는 네트워크 내 하위 샘플링된 경로들로부터 하위 모델의 앙상블을 구성할 수 있음을 보이며, 이는 밀집 자기주의를 사용한 모델보다 더 뛰어난 성능을 달성할 수 있음을 입증한다. 제안된 방법의 효과를 입증하기 위해 생성형 및 판별형 설정에서 다양한 자연어 처리(NLP), 컴퓨터 비전, 그래프 학습 작업에 대해 실험을 수행하였으며, 그 결과는 본 연구의 주장에 대한 실증적 근거를 제공한다.