17日前
RobeCzech:単言語的な文脈依存型言語表現モデルであるCzech RoBERTa
Milan Straka, Jakub Náplava, Jana Straková, David Samuel

要約
本稿では、チェコ語データ上で学習された単言語型のRoBERTa言語表現モデル「RobeCzech」を紹介する。RoBERTaは、トランスフォーマーに基づく事前学習アプローチのうち、堅牢に最適化されたものである。我々は、RobeCzechが同規模の多言語型およびチェコ語専用の文脈依存型言語表現モデルを著しく上回り、評価された5つの自然言語処理(NLP)タスクすべてにおいて現在の最先端(SOTA)を上回り、そのうち4つのタスクで最先端の性能を達成することを示した。RobeCzechモデルは、https://hdl.handle.net/11234/1-3691 および https://huggingface.co/ufal/robeczech-base にて公開されている。