Command Palette
Search for a command to run...
Daniela Gottesman Alon Gilae-Dotan Ido Cohen Yoav Gur-Arieh Marius Mosbach Ori Yoran Mor Geva

要約
言語モデル(LM)は、世界に関する知識を必要とする実世界の応用においてますます重要な役割を果たしている。しかし、モデルがデータを世界に関する知識や信念の表現に変換する内部プロセスについては、依然として十分に理解されていない。こうしたプロセスに関する知見は、一貫性・堅牢性・完全性がより高い知識表現を持つLMの開発につながる可能性がある。これらの課題を解明するため、我々は事前学習中のLMにおける知識獲得の分析を支援するツールキット「LMEnt」を提案する。LMEntは以下の3つの要素を導入している:(1)Wikipediaを基に構築され、エンティティの出現を完全にアノテーション済みの知識豊富な事前学習コーパス、(2)事前学習データ上でエンティティベースの検索を実行する手法であり、従来手法を最大80.4%の性能向上で上回る、(3)最大10億パラメータ、4,000個の中間チェックポイントを備えた12種類の事前学習済みモデルで、知識ベンチマークにおいて一般的なオープンソースモデルと同等の性能を示す。これらのリソースを統合することで、事前学習中のエンティティ出現と下流タスクの性能との関係、および事前学習データにおける因果的介入の影響を制御された環境で分析することが可能になる。LMEntの有効性を実証するため、チェックポイントごとの知識獲得を分析した結果、事実の出現頻度が重要であることが明らかになったが、それだけでは学習の傾向を完全に説明しきれないことが分かった。本研究では、LMにおける知識表現、可塑性、編集、帰属、学習ダイナミクスに関する研究を支援する目的で、LMEntを公開する。