8ヶ月前

ディープラーニング

データセット

AIインフラストラクチャ

オーディオ

Ali Fadel Ibraaheem Tuffaha Bara’ Al-Jawarneh Mahmoud Al-Ayyoub

概要

アラビア語テキストの母音記号付加は、スピーチ合成からアラビア語学習者への支援まで、さまざまな応用を持つ興味深くかつ挑戦的な問題です。他の多くのアラビア語処理タスクや問題と同様に、この問題に対する投資が不足しており、利用可能なオープンソースリソースが不足していることが、解決への進歩を阻害しています。本研究では、現在存在するアラビア語テキストの母音記号付加システム、測定方法、およびリソースについて批判的にレビューを行います。さらに、誰でも簡単に使用できる必要性の高いクリーンなデータセットを紹介します。Tashkeelaコーパスから抽出されたこのデータセットは、約230万語を含む55,000行で構成されています。データセットの構築後、既存のツールやシステムをこれに対してテストしました。実験結果は、神経망ベースのShakkalaシステムが従来のルールベース手法やその他のクローズドソースツールを大幅に上回り、母音記号誤り率（Diacritic Error Rate: DER）が2.88%であることを示しています。これは、非神経網手法の中で最良のDER（Mishkalツールによって得られた13.78%）よりも大幅に低い値です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ディープラーニング

データセット

AIインフラストラクチャ

オーディオ

Ali Fadel Ibraaheem Tuffaha Bara’ Al-Jawarneh Mahmoud Al-Ayyoub

概要

アラビア語テキストの母音記号付加は、スピーチ合成からアラビア語学習者への支援まで、さまざまな応用を持つ興味深くかつ挑戦的な問題です。他の多くのアラビア語処理タスクや問題と同様に、この問題に対する投資が不足しており、利用可能なオープンソースリソースが不足していることが、解決への進歩を阻害しています。本研究では、現在存在するアラビア語テキストの母音記号付加システム、測定方法、およびリソースについて批判的にレビューを行います。さらに、誰でも簡単に使用できる必要性の高いクリーンなデータセットを紹介します。Tashkeelaコーパスから抽出されたこのデータセットは、約230万語を含む55,000行で構成されています。データセットの構築後、既存のツールやシステムをこれに対してテストしました。実験結果は、神経망ベースのShakkalaシステムが従来のルールベース手法やその他のクローズドソースツールを大幅に上回り、母音記号誤り率（Diacritic Error Rate: DER）が2.88%であることを示しています。これは、非神経網手法の中で最良のDER（Mishkalツールによって得られた13.78%）よりも大幅に低い値です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています