Command Palette
Search for a command to run...
単一言語コーパスのみを使用した非監督機械翻訳
単一言語コーパスのみを使用した非監督機械翻訳
Guillaume Lample; Alexis Conneau; Ludovic Denoyer; Marc'Aurelio Ranzato
概要
機械翻訳は、最近の深層学習の進歩と大規模な並列コーパスの利用可能性により、著しい性能を達成しています。低リソース言語ペアへのこれらの成功の拡張には、数万の並列文が必要であることがこれまでに多く試みられてきました。本研究では、この研究方向を極限まで追求し、全く並列データを使用せずに翻訳を学習することが可能かどうかを調査します。私たちは、2つの異なる言語の単一言語コーパスから文を取り出し、それらを同じ潜在空間にマッピングするモデルを提案します。この共有特徴空間から両言語で再構成することを学習することで、モデルはラベル付きデータを使用せずに効果的に翻訳を学習します。私たちは、広く使用されている2つのデータセットと2つの言語ペアでモデルを実証し、Multi30kおよびWMT英仏データセットにおいてBLEUスコアが32.8と15.1であることを報告します。これは訓練時に全く並列文を使用していない状況での結果です。