並行データなしの単語翻訳

最新のクロスリンギアル単語埋め込みの学習手法は、双方向辞書や並行コーパスに依存してきました。最近の研究では、文字レベルの情報を利用することで並行データの監視の必要性が軽減できることが示されています。これらの手法は有望な結果を示していますが、監視付き手法には及ばず、共通のアルファベットを持つ言語ペアに限られています。本研究では、並行コーパスを使用せずに2つの言語間で双方向辞書を構築する方法を提案します。これは、非監視的な方法で単一言語の単語埋め込み空間を合わせることによって実現されます。文字情報を使わずに、当モデルはいくつかの言語ペアにおいて既存の監視付き手法よりもクロスリンギアルタスクで優れた性能を発揮します。当実験は、英語-ロシア語や英語-中国語のような遠い関係にある言語ペアでも当手法が非常に効果的に機能することを示しています。最後に、並行データが限られている低リソース言語ペアである英語-エスペラント語についても実験を行い、完全非監視的な機械翻訳における当手法の潜在的な影響を示します。当研究で使用したコード、埋め込みおよび辞書は公開されています。以上が原文に基づいた日本語訳です。内容と専門用語については以下の通り確認しました:「クロスリンギアル単語埋め込み」: Cross-lingual word embeddings「双方向辞書」: Bilingual dictionary「並行コーパス」: Parallel corpora「文字レベルの情報」: Character-level information「非監視的な方法」: Unsupervised way「低リソース言語ペア」: Low-resource language pair「完全非監視的な機械翻訳」: Fully unsupervised machine translationこの訳文は技術的な内容と専門用語を使用し、正式かつ客観的な表現になっています。また、日本語の読みやすさと自然さにも配慮しています。