2ヶ月前

ハッシュを用いた言語モデルからの構文抽出について

Yiran Wang; Masao Utiyama
ハッシュを用いた言語モデルからの構文抽出について
要約

非監督解析、または文法誘導は、生のテキストから文法構造を推論することを目指しています。最近、バイナリ表現が語彙レベルと文法レベルの両方で優れた情報保存能力を示しています。本論文では、この能力を利用して生のテキストから解析木を導出する可能性を探ります。モデル内に暗黙的に誘導された文法のみに依存します。これを実現するために、ビットレベルのCKY(Cocke-Kasami-Younger)アルゴリズムを零次から一次へとアップグレードし、語彙と文法を統一されたバイナリ表現空間で符号化します。また、対照的ハッシングフレームワークのもとで教師あり学習から教師なし学習へ切り替え、新しい損失関数を導入してより強力かつバランスの取れたアライメント信号を課します。当モデルは様々なデータセットにおいて競争力のある性能を示しており、したがって我々は当手法が効果的かつ効率的であり、事前学習済み言語モデルから低コストで高品質な解析木を得るのに十分であると主張します。