
要約
連続的な単語表現(いわゆる単語埋め込み)は、自然言語処理タスクで使用される多くのニューラルネットワークベースのモデルの基本的な構成要素です。類似した意味を持つ単語が埋め込み空間において近接するべきであるという認識は広く受け入れられていますが、我々はいくつかのタスクで学習された単語埋め込みが頻度に偏っていることを発見しました。つまり、高頻度と低頻度の単語の埋め込みは埋め込み空間内の異なる部分領域に位置し、稀な単語と一般的な単語の埋め込みは意味的に類似していても遠ざかっています。これにより、学習された単語埋め込みは特に稀な単語に対して効果的ではなく、その結果としてこれらのニューラルネットワークモデルの性能が制限されます。本論文では、敵対的訓練を用いて \emph{周波数無関係単語埋め込み} (FRAGE) を学習する簡潔かつ効果的な方法を開発します。我々は4つの自然言語処理タスク(単語類似性、言語モデル化、機械翻訳、テキスト分類)にわたる10つのデータセットを用いて包括的な研究を行いました。結果は、FRAGEを使用することですべてのタスクでベースラインよりも高い性能を達成できることを示しています。