HyperAIHyperAI

Command Palette

Search for a command to run...

DPCSpell: バングラとリソースが乏しいインド系言語の綴り誤り訂正のためのトランスフォーマーに基づく検出-浄化-訂正フレームワーク

Mehedi Hasan Bijoy Nahid Hossain Salekul Islam Swakkhar Shatabda

概要

綴り誤り訂正は、テキスト中の誤った単語を特定し、修正するタスクです。これは、人間の言語理解における多様な応用があるため、自然言語処理における有望で活発な研究課題となっています。音韻的にまたは視覚的に類似しているが意味的には異なる文字が存在することから、どの言語でもこのタスクは困難を極めています。これまでのベンガル語や資源に乏しいインド諸言語における綴り誤り訂正の取り組みは、ルールベース、統計的、および機械学習ベースの方法に焦点を当てていましたが、これらの方法は効率性に欠けることが判明しました。特に、各文字の適切性に関係なく修正を行う機械学習ベースのアプローチは、ルールベースや統計的方法よりも優れた性能を示すものの、効果的ではありませんでした。本論文では、従来の問題点に対処するために、ノイズ除去トランスフォーマーに基づく新しい検出器-精製器-訂正器フレームワーク(DPCSpell)を提案します。さらに、左から右へと記述される言語の資源制約問題を解決するために、大規模コーパスのゼロからの作成方法も提示します。経験的な結果は、ベンガル語の綴り誤り訂正において94.78%の完全一致(EM)スコア、0.9487の適合率スコア、0.9478の再現率スコア、0.948のF1スコア、0.9483のF0.5スコアおよび95.16%の修正精度(MA)スコアを達成し、従来の最先端手法を上回る有効性を示しています。モデルとコーパスは公開されており、https://tinyurl.com/DPCSpell からアクセスできます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています