HyperAIHyperAI

Command Palette

Search for a command to run...

ThaiLMCut:タイ語単語分割のための教師なし事前学習

Hinrich Sch\utze Michael Matuschek Liliana Mamani Sanchez Ivan Bilan Suteera Seeha Johannes Huber

概要

本稿では、未ラベルデータから有用な言語知識を活用するため、双方向文字言語モデル(LM)を活用する半教師あり手法であるThaiLMCutを提案する。この手法では、大量の未ラベルコーパス上で事前学習された言語モデルの埋め込み層および再帰層の重みを、教師ありの単語分割モデルに転移し、その後、単語分割タスク上でさらに微調整を行う。実験結果から、言語モデルの適用が常に性能向上をもたらすことが示された。特にラベル付きデータ量が少ない状況では、F1スコアが最大で2.02%向上した。また、大規模なラベル付きデータセット上でも、わずかな性能向上が得られることを確認した。さらに、ドメイン外設定においても本手法が非常に有効であり、F1スコアで最大3.13%の向上が達成された。最後に、標準ベンチマークInterBEST2009において、他のオープンソースの最先端モデルを上回る性能を示し、F1スコア98.78%を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています