CutMix : Stratégie de régularisation pour entraîner des classifieurs robustes avec des caractéristiques localisables

Des stratégies de dropout régional ont été proposées pour améliorer les performances des classifieurs de réseaux neuronaux convolutifs. Elles se sont avérées efficaces pour guider le modèle à prêter attention aux parties moins discriminantes des objets (par exemple, la jambe plutôt que la tête d'une personne), permettant ainsi au réseau de généraliser mieux et d'avoir une meilleure capacité de localisation d'objets. Cependant, les méthodes actuelles de dropout régional suppriment des pixels informatifs sur les images d'entraînement en superposant un patch de pixels noirs ou de bruit aléatoire. Cette suppression n'est pas souhaitable car elle entraîne une perte d'information et une inefficacité pendant l'entraînement. Nous proposons donc la stratégie d'augmentation CutMix : des patches sont coupés et collés entre les images d'entraînement, où les étiquettes de vérité terrain sont également mélangées proportionnellement à la surface des patches. En utilisant efficacement les pixels d'entraînement et en conservant l'effet de régularisation du dropout régional, CutMix surpasse constamment les stratégies d'augmentation les plus avancées sur les tâches de classification CIFAR et ImageNet, ainsi que sur la tâche de localisation faiblement supervisée ImageNet. De plus, contrairement aux méthodes d'augmentation précédentes, notre classifieur ImageNet formé avec CutMix, lorsqu'il est utilisé comme modèle pré-entraîné, entraîne des gains de performance constants dans les benchmarks de détection Pascal et de légendage d'image MS-COCO. Nous montrons également que CutMix améliore la robustesse du modèle face aux corruptions d'entrée et ses performances de détection hors distribution. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/clovaai/CutMix-PyTorch .