Grands Modèles Pré-Entraînés avec des Vocabulaires Extra-Larges : Une Analyse Contrastive des Modèles BERT en Hébreu et un Nouveau Modèle pour les Surpasser Tous

Nous présentons un nouveau modèle de langage pré-entraîné (PLM) pour l'hébreu moderne, nommé AlephBERTGimmel, qui utilise un vocabulaire beaucoup plus large (128 000 entrées) que les PLM hébreux standards précédents. Nous effectuons une analyse comparative de ce modèle avec tous les PLM hébreux précédents (mBERT, heBERT, AlephBERT) et évaluons les effets d'un vocabulaire plus large sur la performance des tâches. Nos expériences montrent qu'un vocabulaire plus large entraîne moins de découpages, et que réduire le nombre de découpages améliore la performance du modèle, quelles que soient les tâches. Dans l'ensemble, ce nouveau modèle atteint de nouveaux états de l'art (SOTA) sur tous les benchmarks hébreux disponibles, y compris la segmentation morphologique, l'étiquetage des parties du discours (POS Tagging), l'analyse morphologique complète, la reconnaissance d'entités nommées (NER) et l'analyse de sentiment. Par conséquent, nous plaidons en faveur de PLM qui soient non seulement plus grands en termes de nombre de couches ou de données d'entraînement, mais aussi en termes de vocabulaire. Nous mettons le nouveau modèle à disposition du public pour un usage libre et sans restriction.