11일 전

롱 레인지 아레나: 효율적인 트랜스포머를 위한 벤치마크

Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, Donald Metzler
롱 레인지 아레나: 효율적인 트랜스포머를 위한 벤치마크
초록

Transformers는 시퀀스 길이가 길어질수록 자기주의(self-attention)의 복잡도가 이차함수적으로 증가하기 때문에, 긴 시퀀스 길이에 대해 잘 확장되지 않는다. 최근 몇 달 동안, 이 문제를 해결하기 위해 다양한 효율적이고 빠른 Transformers 모델들이 제안되었으며, 대부분의 경우 기존의 Vanilla Transformer 모델과 비교해 우수하거나 유사한 모델 품질을 주장하고 있다. 그러나 지금까지 이 클래스의 모델을 평가하는 데 있어 명확한 합의점은 존재하지 않는다. 또한 다양한 작업과 데이터셋에서 일관되지 않은 벤치마킹이 이루어지면서, 수많은 모델들 간의 상대적인 모델 품질을 평가하는 것은 매우 어렵다. 본 논문은 긴 컨텍스트 상황에서의 모델 품질을 평가하는 데 집중한 체계적이고 통합된 벤치마크인 LRA(Long-Range Arena)를 제안한다. 본 벤치마크는 1K에서 16K 토큰에 이르는 시퀀스를 포함하는 작업 세트로 구성되어 있으며, 텍스트, 자연 이미지, 합성 이미지, 수학적 표현 등 다양한 데이터 유형과 모달리티를 아우르며, 유사성, 구조적, 시각-공간적 추론이 필요한 과제를 포함한다. 우리는 새로 제안한 벤치마크 세트에서 10개의 잘 정립된 장거리 Transformer 모델(Reformer, Linformer, Linear Transformer, Sinkhorn Transformer, Performer, Synthesizer, Sparse Transformer, Longformer 등)을 체계적으로 평가한다. LRA는 이 계열의 효율적 Transformer 모델에 대한 보다 깊은 이해를 가능하게 하며, 이 분야의 추가 연구를 촉진하고 새로운 도전 과제를 제시한다. 본 벤치마크 코드는 https://github.com/google-research/long-range-arena 에서 공개될 예정이다.

롱 레인지 아레나: 효율적인 트랜스포머를 위한 벤치마크 | 최신 연구 논문 | HyperAI초신경