17日前

BPE-Dropout:シンプルかつ効果的なサブワード正則化

Ivan Provilkov, Dmitrii Emelianenko, Elena Voita
BPE-Dropout:シンプルかつ効果的なサブワード正則化
要約

サブワード分割は、機械翻訳におけるオープンボキャブラリープロブレムに対処するために広く用いられている。サブワード分割の主流的手法として、バイトペアエンコーディング(BPE)が挙げられる。BPEは頻出語をそのまま保持しつつ、稀な語を複数のトークンに分割する。同じ語彙に対して複数の分割が可能であるにもかかわらず、BPEは各語に対して一意の分割順序を生成するため、語の構成性(compositionality)のより良い学習や、分割エラーに対するロバスト性の向上を妨げる可能性がある。これまで、このBPEの決定論的性質という欠点を克服する手段として、別のサブワード分割アルゴリズム(Kudo, 2018)を導入するしかなかった。一方、本研究では、BPE自体が同じ語に対して複数の分割を生成する能力を内包していることを示す。そこで、従来のBPEと互換性があり、シンプルかつ効果的なサブワード正則化手法である「BPEドロップアウト」を提案する。この手法はBPEの分割プロセスを確率的に歪ませることで、固定されたBPE枠組み内で複数の分割を生成する。訓練時にBPEドロップアウトを適用し、推論時には標準的なBPEを使用することで、従来のBPEに比べて翻訳品質が最大3 BLEU向上し、従来のサブワード正則化手法に比べても最大0.9 BLEUの向上が達成された。