Méthodes stochastiques économes en mémoire pour les Transformers basés sur la mémoire

L'entraînement des transformateurs basés sur la mémoire peut nécessiter une grande quantité de mémoire et être assez inefficace. Nous proposons un nouveau mécanisme d'entraînement en deux phases et une nouvelle technique de régularisation pour améliorer l'efficacité de l'entraînement des transformateurs basés sur la mémoire, qui sont souvent utilisés pour les problèmes de contexte à longue portée. Pour nos expériences, nous considérons le modèle Transformer-XL comme modèle de référence, qui est l'un des modèles de transformateurs basés sur la mémoire. Nous montrons que notre modèle résultant, Skip Cross-head TransformerXL, surpasses le modèle de référence dans la tâche de modélisation linguistique au niveau des caractères avec un nombre similaire de paramètres, et surpasse également le modèle de référence dans la tâche de modélisation linguistique au niveau des mots avec près de 20% de paramètres en moins. Nos méthodes proposées n'exigent aucune mémoire supplémentaire. Nous démontrons également l'efficacité de notre mécanisme de régularisation sur BERT, qui montre une performance similaire avec une réduction d'environ 30% de l'écart-type des scores sur plusieurs tâches du benchmark GLUE.