Vers une formation plus rapide des réseaux de pooling de covariance globale par normalisation itérative de la racine carrée matricielle

Le regroupement de covariance globale dans les réseaux neuronaux convolutifs a réalisé des améliorations impressionnantes par rapport au regroupement d'ordre un classique. Des travaux récents ont montré que la normalisation par la racine carrée matricielle joue un rôle central pour atteindre des performances de pointe. Cependant, les méthodes existantes dépendent fortement de la décomposition en valeurs propres (EIG) ou de la décomposition en valeurs singulières (SVD), souffrant d'un entraînement inefficace en raison du faible support de ces opérations sur GPU. Pour résoudre ce problème, nous proposons une méthode de normalisation par la racine carrée matricielle itérative permettant un entraînement rapide et intégré des réseaux de regroupement de covariance globale. Au cœur de notre méthode se trouve une méta-couche conçue avec une structure de graphe dirigé à boucles intégrées. Cette méta-couche est composée de trois couches structurées non linéaires consécutives, qui effectuent respectivement une pré-normalisation, une itération matricielle couplée et une compensation postérieure. Notre méthode est beaucoup plus rapide que celles basées sur EIG ou SVD, car elle ne nécessite que des multiplications matricielles, adaptées à une mise en œuvre parallèle sur GPU. De plus, le réseau proposé avec l'architecture ResNet peut converger en beaucoup moins d'époques, accélérant encore davantage l'entraînement du réseau. Sur le grand ensemble ImageNet, nous obtenons des performances compétitives supérieures aux méthodes existantes. En affinant nos modèles pré-entraînés sur ImageNet, nous établissons des résultats de pointe sur trois benchmarks difficiles à grain fin. Le code source et les modèles de réseau seront disponibles à l'adresse http://www.peihuali.org/iSQRT-COV.