OmniNet: Transformers를 통한 다방향 표현

본 논문은 트랜스포머 기반의 전방위 표현 모델인 OmniNet을 제안한다. OmniNet에서는 전통적인 수평적 수용 영역(Receptive Field)을 고수하는 대신, 각 토큰이 전체 네트워크 내의 모든 토큰에 주목할 수 있도록 허용한다. 이 과정은 네트워크의 전체 폭과 깊이에 걸친 수용 영역을 가진 극단적 또는 집중적인 주목 메커니즘으로 해석할 수 있다. 이를 위해 전방위 주목은 본질적으로 다른 자기 주목(self-attention) 기반 모델인 메타러너(meta-learner)를 통해 학습된다. 전체 수용 영역 주목의 계산 비용이 높은 문제를 완화하기 위해, 커널 기반(self-attention) 모델(Choromanski 등), 저랭크 주목(low-rank attention, Wang 등), 또는 Big Bird(Zaheer 등)와 같은 효율적인 자기 주목 모델을 메타러너로 활용한다. 본 연구는 자동회귀 언어 모델링(LM1B, C4), 기계 번역, 장거리 영역(LRA), 이미지 인식 등 다양한 작업에서 광범위한 실험을 수행하였다. 실험 결과, OmniNet은 이러한 모든 작업에서 상당한 성능 향상을 보였으며, 특히 LM1B, WMT'14 En-De/En-Fr, 그리고 Long Range Arena에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 또한, 비전 트랜스포머(Vision Transformers)에 전방위 표현을 도입함으로써, 소수 샘플 학습(few-shot learning) 및 미세조정(fine-tuning) 설정 모두에서 이미지 인식 작업에서 두드러진 성능 향상이 이루어졌다.