Réseaux complexes profonds

Actuellement, la grande majorité des éléments de base, techniques et architectures utilisés pour l'apprentissage profond sont fondés sur des opérations et des représentations à valeurs réelles. Cependant, des travaux récents sur les réseaux neuronaux récurrents ainsi qu'une analyse théorique fondamentale plus ancienne suggèrent que les nombres complexes pourraient avoir une capacité représentative plus riche et faciliter également des mécanismes de récupération de mémoire robustes au bruit. Malgré leurs propriétés attractives et leur potentiel d'ouvrir de tout nouveaux types d'architectures neuronales, les réseaux neuronaux profonds à valeurs complexes ont été marginalisés en raison de l'absence d'éléments de base nécessaires à la conception de tels modèles. Dans cette étude, nous fournissons les composants atomiques essentiels pour les réseaux neuronaux profonds à valeurs complexes et nous les appliquons aux réseaux convolutifs feed-forward et aux LSTM convolutives. Plus précisément, nous nous appuyons sur des convolutions complexes et présentons des algorithmes pour la normalisation par lots complexe (complex batch-normalization), des stratégies d'initialisation de poids complexes pour les réseaux neuronaux à valeurs complexes, et nous les utilisons dans des expériences avec des schémas d'entraînement end-to-end. Nous démontrons que ces modèles à valeurs complexes sont compétitifs avec leurs homologues à valeurs réelles. Nous testons des modèles profonds complexes sur plusieurs tâches de vision par ordinateur, sur la transcription musicale en utilisant le jeu de données MusicNet et sur la prédiction du spectre vocal en utilisant le jeu de données TIMIT. Nous obtenons des performances de pointe sur ces tâches liées au son.