HyperAIHyperAI
il y a 2 mois

AlephBERT : Un grand modèle de langage pré-entraîné en hébreu pour démarrer vos applications NLP en hébreu

Amit Seker; Elron Bandel; Dan Bareket; Idan Brusilovsky; Refael Shaked Greenfeld; Reut Tsarfaty
AlephBERT : Un grand modèle de langage pré-entraîné en hébreu pour démarrer vos applications NLP en hébreu
Résumé

Les grands modèles de langage pré-entraînés (PLMs) sont devenus omniprésents dans le développement des technologies de compréhension linguistique et constituent le cœur de nombreuses avancées en intelligence artificielle. Bien que les progrès réalisés en anglais à l'aide des PLMs soient sans précédent, les avancées signalées pour l'hébreu à l'aide des PLMs sont rares. Le problème est double. Premièrement, les ressources hébraïques disponibles pour l'entraînement des modèles de traitement du langage naturel (NLP) ne sont pas du même ordre de grandeur que leurs homologues anglophones. Deuxièmement, il n'existe pas de tâches et de benchmarks reconnus pour évaluer les progrès des PLMs en hébreu.Dans ce travail, nous visons à remédier à ces deux aspects. Premièrement, nous présentons AlephBERT, un grand modèle de langage pré-entraîné pour l'hébreu moderne, qui est entraîné sur un vocabulaire plus large et un ensemble de données plus important que tout autre modèle PLM en hébreu précédemment développé. Deuxièmement, en utilisant AlephBERT, nous présentons de nouveaux résultats d'état de l'art sur plusieurs tâches et benchmarks en hébreu, notamment : la segmentation, l'étiquetage morphosyntaxique (Part-of-Speech Tagging), l'étiquetage morphologique complet, la reconnaissance d'entités nommées et l'analyse de sentiment.Nous mettons notre modèle AlephBERT à disposition du public, offrant ainsi un point d'entrée unique pour le développement d'applications NLP en hébreu.

AlephBERT : Un grand modèle de langage pré-entraîné en hébreu pour démarrer vos applications NLP en hébreu | Articles de recherche récents | HyperAI