2ヶ月前
深層ニューラルネットワークを用いたアラビア文字のディアクリティゼーション
Ali Fadel; Ibraheem Tuffaha; Bara' Al-Jawarneh; Mahmoud Al-Ayyoub

要約
アラビア語テキストの母音記号付加は、スピーチ合成からアラビア語学習者への支援まで、さまざまな応用を持つ興味深くかつ挑戦的な問題です。他の多くのアラビア語処理タスクや問題と同様に、この問題に対する投資が不足しており、利用可能なオープンソースリソースが不足していることが、解決への進歩を阻害しています。本研究では、現在存在するアラビア語テキストの母音記号付加システム、測定方法、およびリソースについて批判的にレビューを行います。さらに、誰でも簡単に使用できる必要性の高いクリーンなデータセットを紹介します。Tashkeelaコーパスから抽出されたこのデータセットは、約230万語を含む55,000行で構成されています。データセットの構築後、既存のツールやシステムをこれに対してテストしました。実験結果は、神経망ベースのShakkalaシステムが従来のルールベース手法やその他のクローズドソースツールを大幅に上回り、母音記号誤り率(Diacritic Error Rate: DER)が2.88%であることを示しています。これは、非神経網手法の中で最良のDER(Mishkalツールによって得られた13.78%)よりも大幅に低い値です。