HyperAIHyperAI
il y a 17 jours

Éliminer l'erreur par l'erreur pour l'augmentation de données et une méthode générale d'apprentissage multi-modale de données

Yunpeng Gong, Liqing Huang, Lifei Chen
Éliminer l'erreur par l'erreur pour l'augmentation de données et une méthode générale d'apprentissage multi-modale de données
Résumé

L’un des défis de la vision par ordinateur réside dans sa nécessité d’adapter les performances aux déviations chromatiques dans des environnements variables. Par conséquent, minimiser les effets négatifs des déviations chromatiques sur les prédictions constitue l’un des objectifs principaux des tâches de vision. Les solutions actuelles se concentrent sur l’utilisation de modèles génératifs pour enrichir les données d’entraînement, afin d’améliorer l’invariance aux variations d’entrée. Toutefois, de telles méthodes introduisent souvent de nouveaux bruits, ce qui limite les gains tirés des données générées. À cet égard, ce papier propose une stratégie visant à éliminer les déviations chromatiques par l’intermédiaire de déviations, nommée Random Color Dropout (RCD). Notre hypothèse est que, lorsque des déviations chromatiques existent entre une image de requête et une image de galerie, les résultats de recherche sont améliorés pour certains exemples lorsqu’on ignore temporairement les informations chromatiques. Plus précisément, cette stratégie équilibre les poids entre les caractéristiques chromatiques et les caractéristiques indépendantes de la couleur au sein du réseau neuronal en supprimant partiellement les informations chromatiques dans les données d’entraînement, afin de contrer l’effet des déviations chromatiques. La méthode proposée RCD peut être intégrée à divers modèles existants de ReID sans modifier la stratégie d’apprentissage, et s’applique également à d’autres domaines de la vision par ordinateur, tels que la détection d’objets. Des expérimentations menées sur plusieurs modèles de base de ReID et sur trois jeux de données larges couramment utilisés — Market1501, DukeMTMC et MSMT17 — ont confirmé l’efficacité de cette approche. Des tests sur des scénarios multi-domaines ont démontré que cette stratégie est particulièrement efficace pour réduire l’écart entre domaines. En outre, afin de mieux comprendre le mécanisme de fonctionnement de RCD, une analyse de son efficacité a été menée du point de vue de la classification, révélant que, dans les tâches visuelles soumises à fortes variations de domaine, il peut être préférable d’utiliser une partie des informations chromatiques plutôt que toutes les informations disponibles.