17日前

コーパスの多様性が金融分野向け事前学習言語モデルに与える影響の探求

Jaeyoung Choe, Keonwoong Noh, Nayeon Kim, Seyun Ahn, Woohwan Jung
コーパスの多様性が金融分野向け事前学習言語モデルに与える影響の探求
要約

近年、医療・科学・臨床など特定の分野において、一般ドメインの事前学習済み言語モデル(PLM)を上回る性能を発揮する、分野特化型の事前学習済み言語モデルが多数提案されてきた。また、金融データ分析の経済的影響が高いため、金融分野向けのPLMについても研究が進められている。しかし、本研究では金融PLMが十分に多様な金融データに基づいて事前学習されていないことを明らかにした。この訓練データの多様性不足は、汎化性能の低下を引き起こし、多くの下流タスクにおいて、Bertをはじめとする汎用PLMが金融PLMを上回る結果となっている。この問題を解決するために、広範な金融コーパスを収集し、その多様なデータセットに基づいて金融専用言語モデル「FiLM(Financial Language Model)」を訓練した。実験結果により、FiLMは既存の金融PLMだけでなく、汎用ドメインPLMに対しても優れた性能を発揮することが確認された。さらに、本研究では、未観測のコーパス群に対しても、この性能向上が達成可能であるという実証的証拠を提供している。