2ヶ月前

読み、聴き、見る:多モーダル情報の活用が中国語の綴りチェックに役立つ

Heng-Da Xu; Zhongli Li; Qingyu Zhou; Chao Li; Zizhen Wang; Yunbo Cao; Heyan Huang; Xian-Ling Mao
読み、聴き、見る:多モーダル情報の活用が中国語の綴りチェックに役立つ
要約

中国語の綴りチェック(Chinese Spell Checking: CSC)は、中国語でユーザーが生成したテキストにおける誤った文字を検出し、訂正することを目指しています。中国語の綴りミスの多くは、意味的に、音韻的に、または形態的に類似した文字の誤用によるものです。これまでの試みではこの現象に注目し、類似性を利用してタスクを遂行しようとしました。しかし、これらの方法は、ヒューリスティックや手作業で作成された混同集合を用いて正しい文字を予測していました。本論文では、中国語文字の多様な情報(マルチモーダル情報)を直接活用する中国語の綴りチェッカー「ReaLiSe」を提案します。「ReaLiSe」モデルは、(1) 入力文字の意味的、音韻的および形態的情報を捉え、(2) これらのモーダル間で情報を選択的に組み合わせることにより、正しい出力を予測します。SIGHANベンチマークでの実験結果から、「ReaLiSe」モデルが強力な基準モデルに対して大幅に優れていることが示されました。

読み、聴き、見る:多モーダル情報の活用が中国語の綴りチェックに役立つ | 最新論文 | HyperAI超神経