HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de neurones bouclés pour le partage de paramètres

Kei-Sing Ng Qingchen Wang

Résumé

Le succès des grands modèles linguistiques tels que GPT s'explique par leur capacité à prédire efficacement le token suivant dans une séquence. Toutefois, ces modèles exigent un effort computationnel constant, indépendamment de la complexité du token à prédire, et ne disposent pas de la capacité à affiner itérativement leurs prédictions. Dans cet article, nous introduisons un nouveau modèle appelé Réseau de neurones en boucle (Loop Neural Network), qui obtient de meilleures performances en exploitant un temps de calcul plus long sans augmenter la taille du modèle. Notre approche consiste à revisiter plusieurs fois l'entrée, en affinant progressivement la prédiction par des boucles itératives sur une sous-partie du modèle, grâce à des connexions résiduelles. Nous démontrons l'efficacité de cette méthode à travers des expériences comparant des versions de GPT-2 avec nos modèles en boucle, montrant une amélioration significative dans les tâches de modélisation linguistique tout en maintenant des comptes de paramètres similaires. De manière importante, ces améliorations sont obtenues sans nécessiter de données d'entraînement supplémentaires.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp