
초록
지금까지 최신의 시퀀스 모델링 아키텍처 대부분은 언어 기반 작업을 위한 생성 모델을 구축하기 위해 어텐션(attention)을 사용해왔다. 이러한 모델 중 일부는 모든 사용 가능한 시퀀스 토큰을 활용하여 어텐션 분포를 생성함으로써 시간 복잡도가 $O(n^2)$에 이른다. 반면 다른 접근 방식은 크기 $k$의 소프트맥스 정규화 커널을 사용하는 깊이 우선 컨볼루션(depthwise convolution)을 활용하여 제한된 창 크기의 자기 어텐션(self-attention)처럼 작동하게 하여 시간 복잡도를 $O(k{\cdot}n)$으로 줄인다. 본 논문에서는 시간 인식 대커널(Time-aware Large Kernel, TaLK) 컨볼루션을 제안한다. 이는 고정된 크기의 커널 행렬을 사용하는 대신, 합산 커널의 크기를 적응적으로 예측하는 새로운 적응형 컨볼루션 연산이다. 이 방법은 시간 복잡도를 $O(n)$으로 줄여 시퀀스 인코딩 과정을 토큰 수에 비례하는 선형 시간으로 효과적으로 수행할 수 있다. 제안된 방법은 대규모 표준 기계 번역, 추상적 요약, 언어 모델링 데이터셋에서 평가되었으며, 기존의 어텐션 기반 또는 컨볼루션 기반 접근법 대비 효율적인 개선을 보여주었다.