HyperAI

Résumé

Nous introduisons les Réseaux à Largeur Virtuelle (VWN), un cadre qui permet d’obtenir les avantages des représentations plus larges sans supporter le coût quadratique associé à l’augmentation de la taille cachée. Les VWN déconnectent la largeur de représentation de la largeur du noyau (backbone), en élargissant l’espace d’embedding tout en maintenant presque constant le coût de calcul du noyau. Dans notre expérience à grande échelle, une expansion 8 fois plus grande accélère l’optimisation de plus de deux fois pour la prédiction du jeton suivant et de trois fois pour la prédiction des deux jetons suivants. L’avantage s’amplifie au cours de l’entraînement, tant le gap de perte augmente que le rapport d’accélération de convergence croît, ce qui montre que les VWN ne sont pas seulement efficaces en termes de nombre de jetons, mais aussi de plus en plus performants à mesure que l’échelle augmente. En outre, nous identifions une relation d’échelle approximativement logarithmique linéaire entre la largeur virtuelle et la réduction de perte, offrant ainsi une base empirique initiale et une motivation pour explorer l’échelle de la largeur virtuelle comme une nouvelle dimension d’efficacité des grands modèles.

Réseaux à largeur virtuelle

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

Réseaux à largeur virtuelle

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang109 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Seed Baisheng Li Banggu Wu Bole Ma Bowen Xiao Chaoyi Zhang Cheng Li Chengyi Wang Chenyin Xu Chi Zhang