
Ce travail explore les hyper-réseaux : une approche consistant à utiliser un réseau, également connu sous le nom d'hyper-réseau, pour générer les poids d'un autre réseau. Les hyper-réseaux offrent une abstraction similaire à celle que l'on trouve dans la nature : la relation entre un génotype (l'hyper-réseau) et un phénotype (le réseau principal). Bien qu'ils rappellent également HyperNEAT en évolution, nos hyper-réseaux sont formés de manière end-to-end par rétropropagation et sont donc généralement plus rapides. L'objectif de cette étude est de rendre les hyper-réseaux utiles pour les réseaux de neurones convolutifs profonds et les réseaux récurrents longs, où les hyper-réseaux peuvent être considérés comme une forme relaxée du partage des poids entre les couches. Notre résultat principal est que les hyper-réseaux peuvent générer des poids non partagés pour les LSTM et obtenir des résultats proches de l'état de l'art sur diverses tâches de modélisation séquentielle, notamment la modélisation linguistique au niveau des caractères, la génération d'écriture manuscrite et la traduction automatique neuronale, remettant ainsi en question le paradigme du partage des poids pour les réseaux récurrents. Nos résultats montrent également que l'application des hyper-réseaux aux réseaux de neurones convolutifs permet d'obtenir des résultats honorables pour les tâches de reconnaissance d'images, comparables à ceux des modèles baselines de pointe tout en nécessitant moins de paramètres apprenables.