2ヶ月前

CATT: 文字ベースのアラビア語タシュキールトランスフォーマー

Faris Alasmary; Orjuwan Zaafarani; Ahmad Ghannam
CATT: 文字ベースのアラビア語タシュキールトランスフォーマー
要約

タシュキール(Tashkeel)またはアラビア文字のディアクリティック付与(Arabic Text Diacritization, ATD)は、曖昧さを除去し、その不在によって引き起こされる誤解釈のリスクを最小限に抑えることで、アラビア語テキストの理解度を大幅に向上させます。これは、テキスト読み上げや機械翻訳などのアプリケーションにおいて、アラビア語テキスト処理の改善に重要な役割を果たします。本論文では、新しいATDモデルの学習手法を提案します。まず、事前学習済みのキャラクターベースBERTから初期化された2つのトランスフォーマー(エンコーダーのみとエンコーダー-デコーダー)を微調整しました。次に、最良のモデルの性能向上のためにノイジー・スタUDENT(Noisy-Student)手法を適用しました。私たちは11種類の商用およびオープンソースモデルとともに、2つの手動でラベル付けされたベンチマークデータセットであるWikiNewsと当社のCATTデータセットを使用してモデルを評価しました。評価結果は、当社の最上位モデルがWikiNewsとCATTデータセットにおいて相対的なディアクリティック誤り率(Diacritic Error Rates, DERs)でそれぞれ30.83%と35.21%低減しており、既存のすべての評価モデルを上回り、ATDにおける最先端性能を達成していることを示しています。さらに、当社のモデルがCATTデータセットにおいてGPT-4-turboよりも相対的なDERで9.36%優れていることも確認されました。これらの研究成果として、当社はCATTモデルとベンチマークデータセットをオープンソース化し、研究コミュニティへの貢献を目指しています\footnote{https://github.com/abjadai/catt}。

CATT: 文字ベースのアラビア語タシュキールトランスフォーマー | 最新論文 | HyperAI超神経