
要約
Def2Vecは、語彙定義を活用することで意味表現を学習する、画期的な単語埋め込みの枠組みを提案する。定義文から項-文書行列を構築し、潜在意味解析(Latent Semantic Analysis: LSA)を適用することで、優れた性能と拡張性を兼ね備えた埋め込み表現を生成する。品詞タグ付け、固有表現抽出、句構造解析、意味類似度評価といった多様な評価タスクにおいて、Def2VecはWord2Vec、GloVe、fastTextなどの最先端モデルと同等あるいはそれを上回る性能を示している。本モデルがLSAから得られる第二の因子分解行列は、未知語(Out-of-Vocabulary語)に対する効率的な埋め込み拡張を可能にする。辞書的定義の利点とLSAに基づく埋め込みの長所を効果的に統合することで、データ要求量が少ないにもかかわらず、情報豊かな意味表現を獲得できる。本研究は、構造化された語彙情報の活用と効率的な埋め込み拡張の観点から、単語埋め込み生成の理解を深めるものである。