HyperAIHyperAI

Command Palette

Search for a command to run...

深層ニューラルネットワークを用いたアラビア文字のディアクリティゼーション

Ali Fadel Ibraaheem Tuffaha Bara’ Al-Jawarneh Mahmoud Al-Ayyoub

概要

アラビア語テキストの母音記号付加は、スピーチ合成からアラビア語学習者への支援まで、さまざまな応用を持つ興味深くかつ挑戦的な問題です。他の多くのアラビア語処理タスクや問題と同様に、この問題に対する投資が不足しており、利用可能なオープンソースリソースが不足していることが、解決への進歩を阻害しています。本研究では、現在存在するアラビア語テキストの母音記号付加システム、測定方法、およびリソースについて批判的にレビューを行います。さらに、誰でも簡単に使用できる必要性の高いクリーンなデータセットを紹介します。Tashkeelaコーパスから抽出されたこのデータセットは、約230万語を含む55,000行で構成されています。データセットの構築後、既存のツールやシステムをこれに対してテストしました。実験結果は、神経망ベースのShakkalaシステムが従来のルールベース手法やその他のクローズドソースツールを大幅に上回り、母音記号誤り率(Diacritic Error Rate: DER)が2.88%であることを示しています。これは、非神経網手法の中で最良のDER(Mishkalツールによって得られた13.78%)よりも大幅に低い値です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています