2ヶ月前
大規模事前学習モデルと超大規模語彙: ヘブライ語 BERT モデルの対比分析およびそれらを上回る新しいモデルの提案
Eylon Gueta; Avi Shmidman; Shaltiel Shmidman; Cheyn Shmuel Shmidman; Joshua Guedalia; Moshe Koppel; Dan Bareket; Amit Seker; Reut Tsarfaty

要約
現代ヘブライ語向けの新しい事前学習言語モデル(PLM)であるアレフBERTジムルを紹介します。このモデルは、従来のヘブライ語PLMよりも大幅に大きな語彙(128,000項目)を使用しています。私たちはこのモデルとこれまでのすべてのヘブライ語PLM(mBERT、heBERT、アレフBERT)との対比分析を行い、より大きな語彙がタスクパフォーマンスに与える影響を評価しました。実験結果から、より大きな語彙は分割数の減少につながり、分割数の削減は異なるタスクにおいてモデルのパフォーマンス向上に寄与することが示されました。総じて、この新しいモデルは形態素分割、品詞タグ付け、完全形態素解析、固有表現認識(NER)、感情分析など、利用可能なすべてのヘブライ語ベンチマークで新たな最先端(SOTA)の成果を達成しています。その後、私たちはレイヤー数や学習データだけでなく、語彙も大きくするPLMの開発を推奨します。新モデルは無制限使用のために公開されています。