il y a 2 mois
Toutes les couches ne sont pas également importantes : Chaque couche compte dans BERT
Lucas Georges Gabriel Charpentier; David Samuel

Résumé
Ce document présente une nouvelle modification de l'architecture des transformateurs, conçue pour la préformation efficace en données des modèles de langage. Cette approche est évaluée en participant au défi BabyLM, où notre solution a remporté à la fois les catégories stricte et stricte-petite. Notre méthode permet à chaque couche de transformateur de sélectionner lesquelles sorties des couches précédentes elle doit traiter. Les résultats empiriques confirment le potentiel de cette modification simple et montrent que toutes les couches ne sont pas également importantes.