Apprentissage de CNNs récurrents implicites par partage de paramètres

Nous présentons un schéma de partage de paramètres dans lequel différentes couches d'un réseau neuronal convolutif (CNN) sont définies par une combinaison linéaire apprise des tenseurs de paramètres provenant d'une banque globale de modèles. La restriction du nombre de modèles permet une hybridation flexible entre les CNN traditionnels et les réseaux récurrents. Comparativement aux CNN traditionnels, nous démontrons des économies substantielles de paramètres sur des tâches standard de classification d'images, tout en maintenant la précision.Notre schéma simple de partage de paramètres, bien qu'il soit défini par des poids doux, aboutit souvent en pratique à des réseaux entraînés avec une structure récurrente quasi stricte ; avec des effets secondaires négligeables, ils se transforment en réseaux dotés de boucles réelles. L'entraînement de ces réseaux implique donc implicitement la découverte d'architectures récurrentes appropriées. Bien que nous ne considérions que l'aspect conception des liens récurrents, nos réseaux entraînés atteignent une précision compétitive avec ceux construits à l'aide de procédures avancées de recherche d'architecture neuronale (NAS).L'hybridation entre les réseaux récurrents et convolutifs peut également représenter un biais architectural bénéfique. Plus précisément, pour des tâches synthétiques qui sont algorithmiques par nature, nos réseaux hybrides s'entraînent plus rapidement et généralisent mieux aux exemples de test hors du domaine du jeu d'entraînement.