2달 전

잔여 셔플-익스체인지 네트워크를 이용한 긴 시퀀스의 빠른 처리

Andis Draguns; Emīls Ozoliņš; Agris Šostaks; Matīss Apinis; Kārlis Freivalds
잔여 셔플-익스체인지 네트워크를 이용한 긴 시퀀스의 빠른 처리
초록

주목력(attention)은 시퀀스 처리에서 일반적으로 사용되는 메커니즘입니다. 하지만 O(n²) 복잡도를 가지고 있어 긴 시퀀스에 대한 적용을 방해합니다. 최근 소개된 신경 셔플-익스체인지(Neural Shuffle-Exchange) 네트워크는 계산 효율적인 대안을 제공하며, O(n log n) 시간 내에 장거리 의존성을 모델링할 수 있습니다. 그러나 이 모델은 매우 복잡하여, 게이티드 레쿠런트 유닛(Gated Recurrent Unit)에서 파생된 정교한 게이팅 메커니즘을 포함하고 있습니다. 본 논문에서는 GELU와 레이어 정규화(Layer Normalization)를 사용하는 잔차 네트워크(residual network) 기반의 간단하고 가벼운 셔플-익스체인지 네트워크 변형을 제시합니다. 제안된 아키텍처는 더 긴 시퀀스로 확장될 뿐만 아니라 더 빠른 수렴과 더 나은 정확도를 제공합니다. 이 모델은 LAMBADA 언어 모델링 작업에서 셔플-익스체인지 네트워크를 능가하며, 음악 전사(music transcription)를 위한 MusicNet 데이터셋에서 최고 성능을 달성하면서도 매개변수 수에서 효율적입니다. 우리는 개선된 셔플-익스체인지 네트워크와 컨볼루션 계층(convolutional layers)을 결합하는 방법을 보여주며, 이를 장 시퀀스 처리 애플리케이션에서 유용한 구성 요소로 확립합니다.

잔여 셔플-익스체인지 네트워크를 이용한 긴 시퀀스의 빠른 처리 | 최신 연구 논문 | HyperAI초신경