HyperAIHyperAI
il y a 18 jours

Pénaliser l’exemple difficile, mais pas trop : une base solide pour la classification visuelle fine

{Yi Yang, Xiaohan Wang, Linchao Zhu, Yuanzhi Liang}
Résumé

Bien que des progrès significatifs aient été réalisés dans le domaine de la classification visuelle fine (FGVC), le surajustement sévère continue de limiter la généralisation des modèles. Une étude récente montre que les exemples difficiles présents dans l’ensemble d’entraînement peuvent être facilement ajustés par le modèle, mais la plupart des méthodes actuelles de FGVC échouent à classifier correctement certains exemples difficiles dans l’ensemble de test. La raison en est que le modèle surajuste ces exemples difficiles durant l’entraînement, sans toutefois apprendre à généraliser efficacement aux exemples non vus lors du test. Dans cet article, nous proposons une stratégie de modulation modérée des exemples difficiles (MHEM) afin de réguler de manière appropriée ces exemples. La MHEM encourage le modèle à ne pas surajuster les exemples difficiles, tout en améliorant sa capacité de généralisation et de discrimination. Premièrement, nous définissons trois conditions et formulons une forme générale d’une fonction de perte modulée. Deuxièmement, nous instancions cette fonction de perte et proposons une base solide pour le FGVC, permettant d’améliorer considérablement les performances d’un modèle de base naïf, les rendant comparables aux méthodes récentes. En outre, nous démontrons que notre base peut être facilement intégrée aux méthodes existantes, renforçant ainsi leur discriminabilité. Grâce à cette base robuste, nous obtenons des améliorations cohérentes sur trois jeux de données typiques de FGVC : CUB-200-2011, Stanford Cars et FGVC-Aircraft. Nous espérons que l’idée de modulation modérée des exemples difficiles inspirera de futures recherches visant à améliorer l’efficacité de la reconnaissance visuelle fine.