Command Palette

Search for a command to run...

4ヶ月前

ThaiLMCut:タイ語単語分割のための教師なし事前学習

{Hinrich Sch{\u}tze Michael Matuschek Liliana Mamani Sanchez Ivan Bilan Suteera Seeha Johannes Huber}

ThaiLMCut:タイ語単語分割のための教師なし事前学習

要約

本稿では、未ラベルデータから有用な言語知識を活用するため、双方向文字言語モデル(LM)を活用する半教師あり手法であるThaiLMCutを提案する。この手法では、大量の未ラベルコーパス上で事前学習された言語モデルの埋め込み層および再帰層の重みを、教師ありの単語分割モデルに転移し、その後、単語分割タスク上でさらに微調整を行う。実験結果から、言語モデルの適用が常に性能向上をもたらすことが示された。特にラベル付きデータ量が少ない状況では、F1スコアが最大で2.02%向上した。また、大規模なラベル付きデータセット上でも、わずかな性能向上が得られることを確認した。さらに、ドメイン外設定においても本手法が非常に有効であり、F1スコアで最大3.13%の向上が達成された。最後に、標準ベンチマークInterBEST2009において、他のオープンソースの最先端モデルを上回る性能を示し、F1スコア98.78%を達成した。

ベンチマーク

ベンチマーク方法論指標
thai-word-tokenization-on-best-2010ThaiLMCut
F1-Score: 0.9878

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ThaiLMCut:タイ語単語分割のための教師なし事前学習 | 論文 | HyperAI超神経