HyperAIHyperAI

Command Palette

Search for a command to run...

Toutes les couches ne sont pas également importantes : Chaque couche compte dans BERT

Lucas Georges Gabriel Charpentier; David Samuel

Résumé

Ce document présente une nouvelle modification de l'architecture des transformateurs, conçue pour la préformation efficace en données des modèles de langage. Cette approche est évaluée en participant au défi BabyLM, où notre solution a remporté à la fois les catégories stricte et stricte-petite. Notre méthode permet à chaque couche de transformateur de sélectionner lesquelles sorties des couches précédentes elle doit traiter. Les résultats empiriques confirment le potentiel de cette modification simple et montrent que toutes les couches ne sont pas également importantes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Toutes les couches ne sont pas également importantes : Chaque couche compte dans BERT | Articles | HyperAI