2ヶ月前
AlephBERT: ヘブライ語の大型事前学習言語モデルで、あなたのヘブライ語NLPアプリケーションを開始する
Amit Seker; Elron Bandel; Dan Bareket; Idan Brusilovsky; Refael Shaked Greenfeld; Reut Tsarfaty

要約
大規模事前学習言語モデル(PLMs)は、言語理解技術の開発において広く使用され、多くの人工知能の進歩の中心となっています。英語でのPLMsを用いた進歩は前例のないものですが、ヘブライ語でのPLMsを用いた進歩は稀少です。この問題は二重に存在します。第一に、ヘブライ語で利用可能なNLPモデルの訓練リソースは、英語のそれと比べて同じオーダーのものではありません。第二に、ヘブライ語のPLMsの進歩を評価するための受け入れられたタスクやベンチマークが存在しません。本研究では、これらの両面を改善することを目指しています。第一に、現代ヘブライ語向けの大規模事前学習言語モデルであるAlephBERTを提示します。これは、これまでのどのヘブライ語PLMよりも大きなボキャブラリーと大量のデータセットで訓練されています。第二に、AlephBERTを使用して複数のヘブライ語タスクとベンチマークにおける新しい最先端結果を示します。これらにはセグメンテーション、品詞タギング、完全な形態素解析タギング、固有表現認識、感情分析が含まれます。私たちはAlephBERTモデルを公開し、ヘブライ語NLPアプリケーション開発への単一のエントリーポイントを提供します。