HyperAIHyperAI
il y a 2 mois

Réseaux de neurones convolutifs profonds rencontrant le regroupement covariant global : une meilleure représentation et une généralisation améliorée

Qilong Wang; Jiangtao Xie; Wangmeng Zuo; Lei Zhang; Peihua Li
Réseaux de neurones convolutifs profonds rencontrant le regroupement covariant global : une meilleure représentation et une généralisation améliorée
Résumé

Comparé au regroupement par moyenne globale dans les réseaux de neurones convolutifs profonds (CNN) existants, le regroupement par covariance globale peut capturer des statistiques plus riches des caractéristiques profondes, offrant un potentiel pour améliorer les capacités de représentation et de généralisation des CNN profonds. Cependant, l'intégration du regroupement par covariance globale aux CNN profonds soulève deux défis : (1) une estimation robuste de la covariance étant donné des caractéristiques profondes de grande dimension et d'échantillonnage limité ; (2) une utilisation appropriée de la géométrie des covariances. Pour relever ces défis, nous proposons un regroupement global par Matrice Puissance Normalisée COVariance (MPN-COV). Notre MPN-COV correspond à un estimateur robuste de covariance, très adapté aux scénarios de grande dimension et d'échantillonnage limité. Il peut également être considéré comme une métrique Power-Euclidienne entre les covariances, exploitant efficacement leur géométrie. De plus, nous proposons un réseau d'embedding gaussien global pour intégrer les statistiques d'ordre un à MPN-COV. Pour une formation rapide des réseaux MPN-COV, nous mettons en œuvre une normalisation itérative par racine carrée matricielle, évitant ainsi la décomposition en valeurs propres inhérente à MPN-COV qui n'est pas optimisée pour les GPU. En outre, des convolutions progressives 1x1 et des convolutions par groupe sont introduites pour compresser les représentations de covariance. Les méthodes proposées sont hautement modulaires et peuvent facilement être intégrées aux CNN profonds existants. Des expériences approfondies sont menées sur la classification d'objets à grande échelle, la catégorisation de scènes, la reconnaissance visuelle fine et la classification de textures, montrant que nos méthodes surpassent les méthodes comparables et obtiennent des performances d'état de l'art.