Transformer에 대한 위치 인코딩 학습을 위한 연속적인 역학 모델

우리는 비반복 모델(예: Transformer 모델)에 대해 위치 정보를 인코딩하는 새로운 학습 방식을 제안한다. RNN 및 LSTM과 달리, 비반복 모델은 입력 토큰을 순차적으로 로딩함으로써 내재된 유도 편향(inductive bias)을 가지지 않기 때문에 위치에 대해 덜 민감하다. 주된 이유는 입력 단위들 사이의 위치 정보가 본질적으로 인코딩되어 있지 않기 때문이다. 즉, 이러한 모델들은 순열 동등성(permutation equivalence)을 가지며, 이로 인해 기존의 모든 모델은 입력 단계에서 사인파 인코딩(embedding) 계층을 반드시 포함하고 있다. 그러나 이 해결책에는 명확한 한계가 존재한다. 사인파 인코딩은 수작업으로 설계되었으며, 학습 가능한 파라미터를 포함하지 않아 유연성이 부족하며, 위치 임베딩은 입력 시퀀스의 최대 길이를 제한한다. 따라서 다양한 데이터셋과 아키텍처에 적응할 수 있도록 학습 가능한 파라미터를 포함하는 새로운 위치 인코딩 레이어를 설계하는 것이 바람직하다. 동시에, 입력 길이의 변화에 따라 인코딩이 외삽(extrapolate)될 수 있도록 하는 것도 중요하다. 본 연구에서 제안하는 해결책은 최근의 신경미분방정식(Neural ODE) 접근법을 차용한다. 이는 ResNet의 유연한 연속적 버전으로 볼 수 있으며, 다양한 종류의 동역학 시스템을 모델링할 수 있다. 우리는 이러한 동역학 시스템을 이용해 위치 인덱스에 따라 인코딩 결과의 진화를 모델링함으로써, 기존 방법의 한계를 극복한다. 제안한 새로운 위치 레이어는 다양한 신경 기계 번역 및 언어 이해 작업에서 평가되었으며, 실험 결과 기존의 기준 모델 대비 일관된 성능 향상이 나타났다.