HyperAIHyperAI
il y a 17 jours

Un dilemme Whac-A-Mole : les raccourcis se présentent sous plusieurs formes, et la mitigation d’un renforce les autres

Zhiheng Li, Ivan Evtimov, Albert Gordo, Caner Hazirbas, Tal Hassner, Cristian Canton Ferrer, Chenliang Xu, Mark Ibrahim
Un dilemme Whac-A-Mole : les raccourcis se présentent sous plusieurs formes, et la mitigation d’un renforce les autres
Résumé

Les modèles d’apprentissage automatique ont été révélés capables d’apprendre des raccourcis — des règles de décision non intentionnelles incapables de généraliser — compromettant ainsi la fiabilité des modèles. Les travaux antérieurs abordent ce problème sous l’hypothèse fragile selon laquelle un seul raccourci existe dans les données d’entraînement. En réalité, les images du monde réel regorgent de multiples indices visuels, allant du fond à la texture. Une compréhension clé pour améliorer la fiabilité des systèmes de vision repose sur la capacité des méthodes existantes à surmonter plusieurs raccourcis simultanément, ou à se retrouver dans une situation de type « Whac-A-Mole », où la réduction d’un raccourci amplifie la dépendance aux autres. Pour pallier cette limitation, nous proposons deux benchmarks : 1) UrbanCars, un jeu de données doté de signaux trompeurs précisément contrôlés ; et 2) ImageNet-W, un ensemble d’évaluation basé sur ImageNet, dédié à un raccourci que nous avons découvert — le watermark — qui affecte presque tous les modèles modernes de vision. En complément de la texture et du fond, ImageNet-W nous permet d’étudier l’émergence de multiples raccourcis lors de l’entraînement sur des images naturelles. Nous constatons que les modèles de vision par ordinateur, y compris les grands modèles fondamentaux — indépendamment du jeu de données d’entraînement, de l’architecture ou du type de supervision — peinent face à la présence de plusieurs raccourcis. Même les méthodes explicitement conçues pour lutter contre les raccourcis se retrouvent piégées dans un dilemme Whac-A-Mole. Pour relever ce défi, nous proposons Last Layer Ensemble, une méthode simple mais efficace pour atténuer plusieurs raccourcis sans entraîner de comportement Whac-A-Mole. Nos résultats mettent en lumière la nécessité d’aborder la mitigation des raccourcis multiples comme un défi négligé, essentiel à l’amélioration de la fiabilité des systèmes de vision. Les jeux de données et le code sont disponibles à l’adresse suivante : https://github.com/facebookresearch/Whac-A-Mole.