Command Palette

Search for a command to run...

4ヶ月前

LATTE:文字ベース単語分割のための格子型ATTentive Encoding

{Manabu Okumura Kotaro Funakoshi Hidetaka Kamigaito Thodsaporn Chay-intr}

LATTE:文字ベース単語分割のための格子型ATTentive Encoding

要約

文字列は、一つ以上の分割代替(segmentation alternative)を含む。これは分割の曖昧性(segmentation ambiguity)とみなされ、単語分割における性能を低下させる要因となる。このような曖昧性を適切に扱うことで、語の境界に関する曖昧な判断を軽減できる。従来の研究では、ラティス(lattice)を導入することにより、分割の代替を捉える能力を活かし、グラフベースモデルおよび事前学習モデルを組み合わせることで、顕著な分割性能の向上と曖昧性の緩和を達成している。しかし、こうしたモデルによって符号化されたラティスには、文字レベルおよび語レベルを含む複数の粒度情報が含まれているにもかかわらず、それらを十分に注目して活用しているとは言い難い。ラティスにおける多粒度表現を強化するため、本研究では、文字ベースの単語分割を対象に、ラティス・アテンション・エンコーディング(Lattice ATTentive Encoding, LATTE)という手法を提案する。本モデルは、ラティス構造を用いて分割の代替を扱い、グラフニューラルネットワーク(GNN)とアテンション機構を組み合わせることで、ラティスから多粒度表現を効果的に抽出し、文字表現を補完する。実験結果から、日本語、中国語、タイ語の3言語におけるBCCWJ、CTB6、BEST2010データセットにおいて、分割性能の向上が確認された。特に日本語、中国語、タイ語において顕著な改善が得られた。

ベンチマーク

ベンチマーク方法論指標
chinese-word-segmentation-on-ctb6LATTE (Linguistic units, lattices, PTMs, GNNs)
F1: 98.07
japanese-word-segmentation-on-bccwjLATTE (Linguistic units, lattices, PTMs, GNNs)
F1-score (Word): 0.9936
thai-word-tokenization-on-best-2010LATTE (Linguistic units, lattices, PTMs, GNNs)
F1-Score: 0.9907

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LATTE:文字ベース単語分割のための格子型ATTentive Encoding | 論文 | HyperAI超神経