2ヶ月前
深層ディアクリティゼーション:効率的な階層的再帰によるアラビア語のディアクリティゼーションの改善
Badr AlKhamissi; Muhammad N. ElNokrashy; Mohamed Gabr

要約
私たちは、Tashkeela アラビア語の母音記号付けベンチマークで最先端の結果を達成する新しいアーキテクチャを提案します。このアーキテクチャの中心は、単語レベルと文字レベルでそれぞれ独立して動作する二段階の再帰階層構造であり、これにより従来の類似モデルよりも高速な学習と推論が可能となります。また、クロスレベル注意モジュールが両者をさらに接続し、ネットワークの解釈可能性を開きます。タスクモジュールは、有効な母音記号の組み合わせを列挙するソフトマックス分類器です。このアーキテクチャは、部分的に母音記号が付与されたテキストからの事前情報を任意に受け入れる再帰デコーダーを追加することで拡張でき、これにより結果が向上します。私たちはさらに文ドロップアウトや多数決投票などの特別な手法を使用して最終的な結果を向上させています。最良のモデルでは WER(単語誤り率)が 5.34% を達成しており、以前の最先端モデルに対して相対的な誤差減少率 30.56% の改善を示しています。