
要約
本稿では、未ラベルデータから有用な言語知識を活用するため、双方向文字言語モデル(LM)を活用する半教師あり手法であるThaiLMCutを提案する。この手法では、大量の未ラベルコーパス上で事前学習された言語モデルの埋め込み層および再帰層の重みを、教師ありの単語分割モデルに転移し、その後、単語分割タスク上でさらに微調整を行う。実験結果から、言語モデルの適用が常に性能向上をもたらすことが示された。特にラベル付きデータ量が少ない状況では、F1スコアが最大で2.02%向上した。また、大規模なラベル付きデータセット上でも、わずかな性能向上が得られることを確認した。さらに、ドメイン外設定においても本手法が非常に有効であり、F1スコアで最大3.13%の向上が達成された。最後に、標準ベンチマークInterBEST2009において、他のオープンソースの最先端モデルを上回る性能を示し、F1スコア98.78%を達成した。