Command Palette
Search for a command to run...
{Manabu Okumura Kotaro Funakoshi Hidetaka Kamigaito Thodsaporn Chay-intr}

要約
文字列は、一つ以上の分割代替(segmentation alternative)を含む。これは分割の曖昧性(segmentation ambiguity)とみなされ、単語分割における性能を低下させる要因となる。このような曖昧性を適切に扱うことで、語の境界に関する曖昧な判断を軽減できる。従来の研究では、ラティス(lattice)を導入することにより、分割の代替を捉える能力を活かし、グラフベースモデルおよび事前学習モデルを組み合わせることで、顕著な分割性能の向上と曖昧性の緩和を達成している。しかし、こうしたモデルによって符号化されたラティスには、文字レベルおよび語レベルを含む複数の粒度情報が含まれているにもかかわらず、それらを十分に注目して活用しているとは言い難い。ラティスにおける多粒度表現を強化するため、本研究では、文字ベースの単語分割を対象に、ラティス・アテンション・エンコーディング(Lattice ATTentive Encoding, LATTE)という手法を提案する。本モデルは、ラティス構造を用いて分割の代替を扱い、グラフニューラルネットワーク(GNN)とアテンション機構を組み合わせることで、ラティスから多粒度表現を効果的に抽出し、文字表現を補完する。実験結果から、日本語、中国語、タイ語の3言語におけるBCCWJ、CTB6、BEST2010データセットにおいて、分割性能の向上が確認された。特に日本語、中国語、タイ語において顕著な改善が得られた。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| chinese-word-segmentation-on-ctb6 | LATTE (Linguistic units, lattices, PTMs, GNNs) | F1: 98.07 |
| japanese-word-segmentation-on-bccwj | LATTE (Linguistic units, lattices, PTMs, GNNs) | F1-score (Word): 0.9936 |
| thai-word-tokenization-on-best-2010 | LATTE (Linguistic units, lattices, PTMs, GNNs) | F1-Score: 0.9907 |