
要約
既存のニューラル機械翻訳アプローチでは、各出力単語が以前に生成された出力に基づいて決定されます。本稿では、この自己回帰特性を回避し、並列的に出力を生成するモデルを提案します。これにより、推論時の遅延が1桁低いレベルに抑えられます。知識蒸留(knowledge distillation)、入力トークンの肥沃度(fertility)を潜在変数として使用すること、および方策勾配微調整(policy gradient fine-tuning)を通じて、教師として使用される自己回帰トランスフォーマー・ネットワークに対して最大2.0 BLEUポイントの性能低下というコストでこれを実現しています。我々は、訓練戦略のこれら3つの側面それぞれに関連する累積的な改善を示し、IWSLT 2016英語-ドイツ語と2つのWMT言語ペアで当該手法を検証しました。推論時に肥沃度を並列的にサンプリングすることで、非自己回帰モデルはWMT 2016英語-ルーマニア語において近接最先端の性能である29.8 BLEUスコアを達成しました。