2ヶ月前

AttaCut: 高速で正確なニューラルタイ語単語分割器

Pattarawat Chormai; Ponrawee Prasertsom; Attapol Rutherford
AttaCut: 高速で正確なニューラルタイ語単語分割器
要約

単語分割は、タイ語の自然言語処理における基本的な前処理ステップです。現在の市販のソリューションは一貫したベンチマークが行われていないため、それぞれのトレードオフを比較することが困難となっています。私たちは、3つの異なるドメインで人気のあるシステムの速度と精度を比較し、最先端の深層学習システムが遅く、さらにサブワード構造を使用してモデルをガイドしていないことを発見しました。本研究では、ディラテッドCNNフィルターを使用して各文字の環境を捉え、音節埋め込みを特徴として利用する高速かつ正確なニューラルタイ語単語分割器を提案します。当システムは少なくとも5.6倍速く、いくつかのドメインにおいて以前の最先端システムを上回る性能を示しています。また、初めての機械学習ベースのタイ語正書法音節分割器を開発し、これにより単語分割器に使用される音節埋め込みを生成しています。

AttaCut: 高速で正確なニューラルタイ語単語分割器 | 最新論文 | HyperAI超神経