15일 전

시간 인식형 대규모 커널 컨볼루션

Vasileios Lioutas, Yuhong Guo
시간 인식형 대규모 커널 컨볼루션
초록

지금까지 최신의 시퀀스 모델링 아키텍처 대부분은 언어 기반 작업을 위한 생성 모델을 구축하기 위해 어텐션(attention)을 사용해왔다. 이러한 모델 중 일부는 모든 사용 가능한 시퀀스 토큰을 활용하여 어텐션 분포를 생성함으로써 시간 복잡도가 $O(n^2)$에 이른다. 반면 다른 접근 방식은 크기 $k$의 소프트맥스 정규화 커널을 사용하는 깊이 우선 컨볼루션(depthwise convolution)을 활용하여 제한된 창 크기의 자기 어텐션(self-attention)처럼 작동하게 하여 시간 복잡도를 $O(k{\cdot}n)$으로 줄인다. 본 논문에서는 시간 인식 대커널(Time-aware Large Kernel, TaLK) 컨볼루션을 제안한다. 이는 고정된 크기의 커널 행렬을 사용하는 대신, 합산 커널의 크기를 적응적으로 예측하는 새로운 적응형 컨볼루션 연산이다. 이 방법은 시간 복잡도를 $O(n)$으로 줄여 시퀀스 인코딩 과정을 토큰 수에 비례하는 선형 시간으로 효과적으로 수행할 수 있다. 제안된 방법은 대규모 표준 기계 번역, 추상적 요약, 언어 모델링 데이터셋에서 평가되었으며, 기존의 어텐션 기반 또는 컨볼루션 기반 접근법 대비 효율적인 개선을 보여주었다.

시간 인식형 대규모 커널 컨볼루션 | 최신 연구 논문 | HyperAI초신경