HyperAIHyperAI

Command Palette

Search for a command to run...

CATT: 文字ベースのアラビア語タシュキールトランスフォーマー

Abdulaziz Aljafri Ahmad Aljumaili Mohamed Al-Rajhi

概要

タシュキール(Tashkeel)またはアラビア文字のディアクリティック付与(Arabic Text Diacritization, ATD)は、曖昧さを除去し、その不在によって引き起こされる誤解釈のリスクを最小限に抑えることで、アラビア語テキストの理解度を大幅に向上させます。これは、テキスト読み上げや機械翻訳などのアプリケーションにおいて、アラビア語テキスト処理の改善に重要な役割を果たします。本論文では、新しいATDモデルの学習手法を提案します。まず、事前学習済みのキャラクターベースBERTから初期化された2つのトランスフォーマー(エンコーダーのみとエンコーダー-デコーダー)を微調整しました。次に、最良のモデルの性能向上のためにノイジー・スタUDENT(Noisy-Student)手法を適用しました。私たちは11種類の商用およびオープンソースモデルとともに、2つの手動でラベル付けされたベンチマークデータセットであるWikiNewsと当社のCATTデータセットを使用してモデルを評価しました。評価結果は、当社の最上位モデルがWikiNewsとCATTデータセットにおいて相対的なディアクリティック誤り率(Diacritic Error Rates, DERs)でそれぞれ30.83%と35.21%低減しており、既存のすべての評価モデルを上回り、ATDにおける最先端性能を達成していることを示しています。さらに、当社のモデルがCATTデータセットにおいてGPT-4-turboよりも相対的なDERで9.36%優れていることも確認されました。これらの研究成果として、当社はCATTモデルとベンチマークデータセットをオープンソース化し、研究コミュニティへの貢献を目指しています\footnote{https://github.com/abjadai/catt}


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
CATT: 文字ベースのアラビア語タシュキールトランスフォーマー | 記事 | HyperAI超神経