ObjectNet : un grand ensemble de données contrôlé en termes de biais pour repousser les limites des modèles de reconnaissance d'objets

Nous avons collecté un grand ensemble de tests réel, ObjectNet, dédié à la reconnaissance d’objets, avec des contrôles rigoureux sur les arrière-plans des objets, leurs rotations et les points de vue d’imagerie, tous aléatoires. La plupart des expériences scientifiques incluent des contrôles, c’est-à-dire l’élimination de biais potentiels dans les données, afin d’empêcher les sujets de réussir une tâche en exploitant des corrélations triviales. Historiquement, les grands jeux de données utilisés en apprentissage automatique et en vision par ordinateur ont fait défaut à de tels contrôles. Cela a conduit à des modèles qui doivent être ajustés (fine-tuned) pour chaque nouveau jeu de données, et qui se comportent mieux sur les benchmarks que dans des applications réelles. Lorsqu’ils sont évalués sur ObjectNet, les détecteurs d’objets affichent une baisse de performance de 40 à 45 % par rapport à leurs performances sur d’autres benchmarks, en raison des contrôles mis en place pour éliminer les biais. Ces contrôles rendent ObjectNet robuste à l’ajustement fin, montrant uniquement de faibles améliorations de performance. Nous avons développé une plateforme hautement automatisée permettant de collecter des jeux de données avec contrôles grâce au crowd-sourcing de la capture et de l’annotation d’images. ObjectNet a la même taille que l’ensemble de test ImageNet (50 000 images), et, par conception, n’est pas associé à un ensemble d’apprentissage afin de favoriser la généralisation. Ce jeu de données est à la fois plus simple qu’ImageNet (les objets sont principalement centrés et non occlus) et plus difficile (en raison des contrôles). Bien que nous nous concentrions ici sur la reconnaissance d’objets, des données avec contrôles peuvent être collectées à grande échelle à l’aide d’outils automatisés dans tout le domaine de l’apprentissage automatique, permettant de générer des jeux de données qui mettent les modèles à l’épreuve de nouvelles manières, offrant ainsi un retour précieux aux chercheurs. Ce travail ouvre de nouvelles voies de recherche vers une vision par ordinateur plus généralisable, plus robuste et plus proche de celle de l’humain, ainsi que vers la création de jeux de données dont les résultats prédisent efficacement les performances dans des contextes réels.