Command Palette
Search for a command to run...
LMEnt : Un ensemble pour analyser les connaissances dans les modèles linguistiques, de la donnée d'entraînement préalable aux représentations
Daniela Gottesman Alon Gilae-Dotan Ido Cohen Yoav Gur-Arieh Marius Mosbach Ori Yoran Mor Geva

Résumé
Les modèles de langage (LM) jouent un rôle croissant dans des applications du monde réel exigeant une connaissance du monde. Toutefois, les processus internes par lesquels ces modèles transforment les données en représentations de connaissances et de croyances sur le monde restent mal compris. Comprendre ces processus pourrait ouvrir la voie au développement de modèles de langage dotés de représentations de connaissances plus cohérentes, robustes et complètes. Pour faciliter l’étude de ces questions, nous présentons LMEnt, une suite d’outils destinée à analyser l’acquisition de connaissances par les modèles de langage durant la phase de pré-entraînement. LMEnt introduit : (1) un corpus de pré-entraînement riche en connaissances, entièrement annoté avec des mentions d’entités, basé sur Wikipedia ; (2) une méthode de recherche fondée sur les entités appliquée aux données de pré-entraînement, qui surpassent les approches antérieures jusqu’à 80,4 % ; (3) 12 modèles pré-entraînés, pouvant atteindre jusqu’à 1 milliard de paramètres et 4 000 points intermédiaires d’entraînement, offrant des performances comparables à celles des modèles open-source largement utilisés sur des benchmarks de connaissance. Ensemble, ces ressources constituent un environnement contrôlé permettant d’analyser les liens entre les mentions d’entités dans les données de pré-entraînement et les performances en tâches ultérieures, ainsi que les effets d’interventions causales dans les données d’entraînement. Nous démontrons la pertinence de LMEnt en étudiant l’acquisition de connaissances au fil des points d’entraînement, en montrant que la fréquence des faits est un facteur clé, bien qu’elle ne suffise pas à expliquer entièrement les tendances d’apprentissage. Nous mettons LMEnt à disposition pour soutenir des recherches sur les connaissances dans les modèles de langage, notamment leurs représentations, leur plasticité, leur édition, leur attribution et leurs dynamiques d’apprentissage.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.