10일 전
데이터 겹침과 프라이머 배치 크기를 통한 시퀀스 정보 손실 완화
Noémien Kocher, Christian Scuito, Lorenzo Tarantino, Alexandros Lazaridis, Andreas Fischer, Claudiu Musat

초록
시퀀스 모델링 과제에서 토큰의 순서는 중요하지만, 시퀀스를 데이터 포인트로 디지털화하는 과정에서 이 정보 일부가 손실될 수 있다. 본 논문에서는 특정 토큰 쌍이 데이터 포인트에 포함되는 방식과 그렇지 않은 방식 사이의 불균형을 연구한다. 이를 토큰 순서 불균형(TOI, Token Order Imbalance)이라 명명하며, 이로 인해 시퀀스 정보의 일부가 소실되면서 텍스트 및 음성 처리 과제에서 시스템 전반의 성능 저하가 발생함을 규명한다. 이후 우리는 데이터 포인트의 토큰 구성이 반복적으로 겹치는 방식으로 전체 토큰 순서 정보를 효과적으로 활용할 수 있는 메커니즘—보완된 TOI(Alleviated TOI)—를 제안한다. 순환 신경망(RNN)의 경우, 겹치는 데이터 포인트로부터 배치를 구성할 때 중복을 피하기 위해 배치 크기에 소수를 사용한다. 제안된 방법은 텍스트 및 음성 관련 과제에서 최신 기준(SOTA, State-of-the-Art) 성능을 달성하였다.