2ヶ月前

単一言語データを活用したクロスリンギアルな合成的単語表現

Hubert Soyer; Pontus Stenetorp; Akiko Aizawa
単一言語データを活用したクロスリンギアルな合成的単語表現
要約

本研究では、組成的なクロスリンガル単語表現を誘導するための新しいニューラルネットワークベースのアーキテクチャを提案します。従来の手法とは異なり、当手法は以下の3つの基準を満たしています。すなわち、単語レベルの表現が組成的であることを制約し、バイリンガルデータとモノリンガルデータの両方を利用でき、大規模な語彙や大量のデータにスケーラブルであることです。当アプローチの主要な構成要素は、「モノリンガル包含基準」(monolingual inclusion criterion)と呼ぶもので、フレーズがその部分フレーズよりも他のランダムにサンプリングされたフレーズとより密接に関連しているという観察に基づいています。我々は確立されたクロスリンガル文書分類タスクにおいて当手法を評価し、従来の最先端手法と同等か、大幅に改善した結果を得ました。具体的には、英語からドイツ語へのサブタスクでは92.7%、ドイツ語から英語へのサブタスクでは84.4%の精度を達成しました。前者は精度で0.9ポイント向上し、後者は従来の最先端手法に対して絶対的に7.7ポイント向上し、エラー削減率で33.0%向上しています。

単一言語データを活用したクロスリンギアルな合成的単語表現 | 最新論文 | HyperAI超神経