Réseaux de neurones bouclés pour le partage de paramètres

Le succès des grands modèles linguistiques tels que GPT s'explique par leur capacité à prédire efficacement le token suivant dans une séquence. Toutefois, ces modèles exigent un effort computationnel constant, indépendamment de la complexité du token à prédire, et ne disposent pas de la capacité à affiner itérativement leurs prédictions. Dans cet article, nous introduisons un nouveau modèle appelé Réseau de neurones en boucle (Loop Neural Network), qui obtient de meilleures performances en exploitant un temps de calcul plus long sans augmenter la taille du modèle. Notre approche consiste à revisiter plusieurs fois l'entrée, en affinant progressivement la prédiction par des boucles itératives sur une sous-partie du modèle, grâce à des connexions résiduelles. Nous démontrons l'efficacité de cette méthode à travers des expériences comparant des versions de GPT-2 avec nos modèles en boucle, montrant une amélioration significative dans les tâches de modélisation linguistique tout en maintenant des comptes de paramètres similaires. De manière importante, ces améliorations sont obtenues sans nécessiter de données d'entraînement supplémentaires.