HyperAIHyperAI

Command Palette

Search for a command to run...

L'Attention, c'est tout ce dont vous avez besoin

Résumé

Les modèles dominants de transduction de séquences reposent sur des réseaux neuronaux complexes, récurrents ou convolutifs, dans une architecture encodage-décodage. Les meilleurs modèles intègrent également, entre l’encodeur et le décodeur, un mécanisme d’attention. Nous proposons une nouvelle architecture réseau simple, le Transformer, fondée exclusivement sur des mécanismes d’attention, éliminant entièrement les récurrences et les convolutions. Des expériences menées sur deux tâches de traduction automatique montrent que ces modèles offrent une qualité supérieure tout en étant plus parallélisables et nécessitant une durée d’entraînement significativement réduite. Notre modèle atteint un score de 28,4 BLEU sur la tâche de traduction anglais-allemand du WMT 2014, dépassant ainsi les résultats existants les plus performants, y compris les ensembles, de plus de 2 BLEU. Sur la tâche de traduction anglais-français du WMT 2014, notre modèle établit un nouveau record d’état de l’art pour un modèle unique, avec un score BLEU de 41,8 après 3,5 jours d’entraînement sur huit GPU, soit une fraction très réduite des coûts d’entraînement des meilleurs modèles décrits dans la littérature. Nous démontrons que le Transformer se généralise bien à d’autres tâches en l’appliquant avec succès à l’analyse syntaxique des constituants en anglais, aussi bien avec de grandes que avec des quantités limitées de données d’entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp