HyperAIHyperAI

Command Palette

Search for a command to run...

Méthodes stochastiques économes en mémoire pour les Transformers basés sur la mémoire

Vishwajit Kumar Vishnu; C. Chandra Sekhar

Résumé

L'entraînement des transformateurs basés sur la mémoire peut nécessiter une grande quantité de mémoire et être assez inefficace. Nous proposons un nouveau mécanisme d'entraînement en deux phases et une nouvelle technique de régularisation pour améliorer l'efficacité de l'entraînement des transformateurs basés sur la mémoire, qui sont souvent utilisés pour les problèmes de contexte à longue portée. Pour nos expériences, nous considérons le modèle Transformer-XL comme modèle de référence, qui est l'un des modèles de transformateurs basés sur la mémoire. Nous montrons que notre modèle résultant, Skip Cross-head TransformerXL, surpasses le modèle de référence dans la tâche de modélisation linguistique au niveau des caractères avec un nombre similaire de paramètres, et surpasse également le modèle de référence dans la tâche de modélisation linguistique au niveau des mots avec près de 20% de paramètres en moins. Nos méthodes proposées n'exigent aucune mémoire supplémentaire. Nous démontrons également l'efficacité de notre mécanisme de régularisation sur BERT, qui montre une performance similaire avec une réduction d'environ 30% de l'écart-type des scores sur plusieurs tâches du benchmark GLUE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp