要約
語彙単位に基づく単語分割モデルは、タイ語を含む接続語彙言語において広く応用されており、高い性能が実証されている。これらのモデルは、文字列から語の境界を推定する。しかし、文字列における文字単位は、語、サブワード、文字クラスタ単位に比べて本質的な意味を持たない。本研究では、文字列から語、サブワード、文字クラスタといった複数の種類の情報を活用するタイ語単語分割モデルを提案する。本モデルは、文字とさまざまな単位タイプ間の重要な関係性を推定することで、複数のアテンション機構を用いて分割推論を精緻化する。実験の結果、本モデルが他の最先端のタイ語単語分割モデルを上回る性能を発揮することを確認した。