17일 전

BPE-드롭아웃: 간단하고 효과적인 하위단어 정규화

Ivan Provilkov, Dmitrii Emelianenko, Elena Voita
BPE-드롭아웃: 간단하고 효과적인 하위단어 정규화
초록

서브워드 분할은 기계 번역에서 열린 사전 문제를 해결하기 위해 널리 사용된다. 서브워드 분할의 주류 방식은 바이트 페어 인코딩(BPE, Byte Pair Encoding)이며, 자주 등장하는 단어는 그대로 유지하면서 드물게 등장하는 단어는 여러 토큰으로 분할한다. 동일한 사전을 사용하더라도 여러 가지 분할 방식이 가능하지만, BPE는 각 단어에 대해 고유한 분할 시퀀스를 생성한다. 이로 인해 모델이 단어의 구성성(Compositionality)을 더 효과적으로 학습하거나 분할 오류에 대해 강건해지는 데 제약이 생길 수 있다. 현재까지 BPE의 이러한 결정론적 성격이라는 한계를 극복하기 위한 유일한 방법은 다른 서브워드 분할 알고리즘을 개발하는 것이었다(Kudo, 2018). 반면, 본 연구에서는 BPE 자체가 동일한 단어에 대해 여러 가지 분할을 생성할 수 있는 능력을 내포하고 있음을 보여준다. 우리는 기존 BPE와 호환되며 간단하고 효과적인 서브워드 정규화 방법인 BPE-드롭아웃(BPE-dropout)을 제안한다. 이 방법은 BPE의 분할 절차를 확률적으로 왜곡함으로써, 고정된 BPE 프레임워크 내에서 동일한 단어에 대해 여러 가지 분할을 생성할 수 있도록 한다. 학습 시 BPE-드롭아웃을 사용하고 추론 시 기존의 표준 BPE를 사용할 경우, 기존 BPE 대비 최대 3 BLEU, 이전의 서브워드 정규화 기법 대비 최대 0.9 BLEU의 번역 품질 향상을 달성할 수 있다.

BPE-드롭아웃: 간단하고 효과적인 하위단어 정규화 | 최신 연구 논문 | HyperAI초신경