2ヶ月前

多言語分散表現における単語アライメントの不要性

Karl Moritz Hermann; Phil Blunsom

要約

意味の分散表現は、NLPにおける単語やフレーズ間の共変関係を自然に符号化する方法です。データの希少性問題を克服し、離散的な表現では得られない意味的関連性に関する情報を提供することで、分散表現は多くのNLPタスクで有用であることが示されています。最近の研究では、組成的意味表現が感情分析などの単一言語アプリケーションに成功裏に適用できることが示されています。同時に、複数言語間での共有された単語レベルの表現を学習する作業においても初期的成功が見られています。これらの2つのアプローチを組み合わせることで、多言語環境での分散表現の学習方法を提案します。当モデルは、並行する文には類似した埋め込みを割り当て、並行しない文には非類似な埋め込みを割り当てる能力を持ちつつ、単語の対応関係を必要としません。我々は、当モデルが意味的に情報量豊富であることを示し、それをクロスリンガル文書分類タスクに適用することで従来の最先端技術を超える性能を達成しました。さらに、複数の言語ペアの並行コーパスを使用することで、並行データが使用されていない言語間でも意味的関係性を捉えた表現を学習することが可能であることがわかりました。