17일 전
하이에나 계층: 더 큰 컨볼루션 언어 모델로의 도전
Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao, Stephen Baccus, Yoshua Bengio, Stefano Ermon, Christopher Ré

초록
최근 딥러닝의 발전은 대규모 트랜스포머 모델의 활용에 크게 의존해 왔으며, 이는 확장 가능한 학습 능력 덕분이다. 그러나 트랜스포머의 핵심 구성 요소인 어텐션 연산자는 시퀀스 길이에 대해 이차 비용을 가지므로, 접근 가능한 컨텍스트의 양에 한계가 있다. 기존의 낮은 랭크 및 희소 근사 기반의 하위 이차 방법들은 트랜스포머 수준의 성능을 달성하기 위해 밀도 있는 어텐션 레이어와 결합되어야 하는 점에서, 성능 면에서 여전히 격차가 존재한다. 본 연구에서는, 암묵적으로 파라미터화된 긴 컨볼루션과 데이터 제어형 게이팅을 교차 배치하여 구성된 하위 이차 어텐션 대체 연산자인 Hyena를 제안한다. 수천에서 수십만 토큰에 이르는 시퀀스에 대한 기억 및 추론 작업에서, 상태공간 기반 및 기타 암묵적·명시적 방법에 의존하는 연산자들과 비교해 Hyena는 정확도를 50점 이상 향상시켰으며, 어텐션 기반 모델과 동등한 성능을 달성했다. 표준 데이터셋(WikiText103 및 The Pile)에서 밀도 있는 어텐션 없이도 언어 모델링 분야에서 새로운 최고 성능을 기록하였으며, 시퀀스 길이 2K에서 트랜스포머 수준의 성능을 달성하면서 훈련 계산량을 20% 감소시켰다. Hyena 연산자는 시퀀스 길이 8K에서는 매우 최적화된 어텐션보다 두 배 빠르며, 시퀀스 길이 64K에서는 100배 빠르게 동작한다.