Command Palette
Search for a command to run...

Résumé
Nous introduisons les Réseaux à Largeur Virtuelle (VWN), un cadre qui permet d’obtenir les avantages des représentations plus larges sans supporter le coût quadratique associé à l’augmentation de la taille cachée. Les VWN déconnectent la largeur de représentation de la largeur du noyau (backbone), en élargissant l’espace d’embedding tout en maintenant presque constant le coût de calcul du noyau. Dans notre expérience à grande échelle, une expansion 8 fois plus grande accélère l’optimisation de plus de deux fois pour la prédiction du jeton suivant et de trois fois pour la prédiction des deux jetons suivants. L’avantage s’amplifie au cours de l’entraînement, tant le gap de perte augmente que le rapport d’accélération de convergence croît, ce qui montre que les VWN ne sont pas seulement efficaces en termes de nombre de jetons, mais aussi de plus en plus performants à mesure que l’échelle augmente. En outre, nous identifions une relation d’échelle approximativement logarithmique linéaire entre la largeur virtuelle et la réduction de perte, offrant ainsi une base empirique initiale et une motivation pour explorer l’échelle de la largeur virtuelle comme une nouvelle dimension d’efficacité des grands modèles.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.