2ヶ月前

Levenshtein Transformer

Jiatao Gu; Changhan Wang; Jake Zhao

要約

現代のニューラルシーケンス生成モデルは、トークンをゼロから段階的に生成するか、または固定長で制限されたトークンのシーケンスを（反復的に）修正するために設計されています。本研究では、より柔軟かつ扱いやすいシーケンス生成のために、新たな部分自己回帰モデルであるレビンシュタイントランスフォーマーを開発しました。従来の手法とは異なり、当モデルの原子操作は挿入と削除です。これらの操作の組み合わせは、生成だけでなくシーケンスの洗練も可能にし、動的な長さ変更を許容します。また、これらの操作に特化した一連の新しい訓練技術を提案しており、互いに補完的な性質により一方が他方の学習信号として効果的に利用されます。提案モデルを適用した実験では、生成タスク（例：機械翻訳、要約）と洗練タスク（例：自動後編集）において同等の性能を達成しながら大幅な効率向上が確認されました。さらに、機械翻訳によって訓練されたレビンシュタイントランスフォーマーが自動後編集に直接使用できることで当モデルの柔軟性を確認しています。