Command Palette
Search for a command to run...
HyperRéseaux
HyperRéseaux
Ha David Dai Andrew Le Quoc V.
Résumé
Ce travail explore les hyperréseaux : une approche consistant à utiliser un réseau, également appelé hyperréseau, pour générer les poids d’un autre réseau. Les hyperréseaux offrent une abstraction similaire à celle observée dans la nature : la relation entre un génotype — l’hyperréseau — et un phénotype — le réseau principal. Bien qu’ils évoquent également l’approche HyperNEAT dans le cadre de l’évolution, nos hyperréseaux sont entraînés de manière end-to-end par rétropropagation, ce qui les rend généralement plus rapides. L’objectif de ce travail est de rendre les hyperréseaux utiles pour les réseaux convolutionnels profonds et les réseaux récurrents longs, dans lesquels les hyperréseaux peuvent être considérés comme une version assouplie du partage de poids entre couches. Notre principal résultat montre que les hyperréseaux peuvent générer des poids non partagés pour les LSTM, atteignant des performances proches de l’état de l’art sur diverses tâches de modélisation de séquences, telles que la modélisation linguistique au niveau des caractères, la génération d’écriture manuscrite et la traduction automatique par réseaux neuronaux, remettant ainsi en question le paradigme du partage de poids dans les réseaux récurrents. Nos résultats montrent également que l’application des hyperréseaux aux réseaux convolutionnels permet d’obtenir des résultats respectables pour les tâches de reconnaissance d’images, comparables aux modèles de référence les plus performants, tout en nécessitant un nombre réduit de paramètres à apprendre.