
초록
조건부 계산은 Transformer를 더 효율적으로 만드는 인기 있는 전략입니다. 기존 방법들은 종종 개별 모듈(예: 전문가 혼합 레이어) 또는 서로 독립적으로 레이어를 건너뛰는 것에 초점을 맞춥니다. 그러나 해석성 연구는 Transformer의 중간 레이어가 더 큰 중복성을 보이며, 초기 레이어가 정보를 토큰 위치로 집계한다는 것을 입증했습니다. 이러한 통찰력을 바탕으로, 우리는 중간에서 외부로 다양한 수의 레이어를 동적으로 건너뛰는 새로운 아키텍처를 제안합니다. 특히, 학습된 게이팅 메커니즘이 입력에 따라 중앙 블록의 대칭적인 구간을 우회할지 여부를 결정하고, 게이트 주의 메커니즘이 후속 토큰들이 건너뛴 토큰 위치에 주의하지 않도록 방지합니다. 잔여 노름은 '샌드위치' 또는 '페리레이어노름(perilayernorm)' 스키마로 제어되며, 게이트 희소성은 적응형 정규화 손실로 제어됩니다. 우리는 '단순한' 토큰들의 계산 요구사항을 줄이고 잠재적으로 다중 수준 표현 계층을 촉진하는 것을 목표로 하였지만, 조사된 규모에서는 우리의 접근법이 더 적은 레이어를 가진 밀집된 베이스라인과 비교하여 검증 크로스 엔트로피와 추정된 FLOPs 간의 균형 개선을 달성하지 못했습니다. 우리의 코드는 https://github.com/tim-lawson/skip-middle에서 공개됩니다.