
要約
再帰型ニューラルネットワークを用いた言語モデルの最近の進展により、文字の分布として言語をモデル化することが可能となった。過去の文字列に基づいて次の文字を予測するように学習させることで、このようなモデルは単語、文、句節、さらには感情(センチメント)といった言語的コンセプトを自動的に内面化することが示されている。本論文では、訓練済みの文字レベル言語モデルの内部状態を活用し、それを「文脈付き文字列埋め込み(contextual string embeddings)」と呼ぶ新たなタイプの単語埋め込みを提案する。本研究で提案する埋め込みは以下の2つの特徴を持つ:(a)単語の明示的な概念を用いずに学習されるため、根本的に単語を文字の系列としてモデル化しており、(b)周囲の文脈によって文脈化されているため、同じ単語でもその使用状況に応じて異なる埋め込み表現を獲得する。従来の埋め込みとの比較評価を行った結果、本手法の埋め込みは下流タスクにおいて非常に有効であることが明らかになった。4つの代表的なシーケンスラベル付けタスクにおいて、一貫して従来の最良手法を上回る性能を達成した。特に英語およびドイツ語の固有表現抽出(Named Entity Recognition, NER)において、従来の手法を顕著に上回り、CoNLL03共同タスクにおいて新たな最良のF1スコアを報告することができた。本研究で開発したすべてのコードおよび事前学習済み言語モデルを、研究コミュニティが容易に再現実験を行えるように、シンプルなフレームワークとして公開する。これにより、本手法の埋め込みを他のタスクへ応用することが可能となる。公開リンク:https://github.com/zalandoresearch/flair