7日前

ニューラル機械翻訳における決定論的可逆データ拡張

Jiashu Yao, Heyan Huang, Zeming Liu, Yuhang Guo
ニューラル機械翻訳における決定論的可逆データ拡張
要約

データ拡張は機械翻訳におけるコーパスの多様性を高める有効な手法であるが、従来の手法は不可逆的な操作やランダムなサブワードサンプリングプロセスにより、元データと拡張データの間に意味的な不整合を引き起こす可能性がある。符号的に多様でありながら意味的に整合性を持つ拡張データを生成するため、我々は神経機械翻訳向けにシンプルかつ効果的なデータ拡張手法である「決定論的可逆データ拡張(Deterministic Reversible Data Augmentation: DRDA)」を提案する。DRDAは決定論的な分割と可逆な操作を採用し、多粒度のサブワード表現を生成するとともに、マルチビュー技術を用いてそれらを相互に近づける。追加のコーパスやモデルの変更を必要とせず、複数の翻訳タスクにおいて強力なベースラインを明確な差で上回り(Transformerベースラインに対して最大4.3のBLEU向上)、ノイズが多い、低リソース、クロスドメインのデータセットにおいても優れたロバスト性を示した。

ニューラル機械翻訳における決定論的可逆データ拡張 | 最新論文 | HyperAI超神経