HyperAIHyperAI
il y a 17 jours

WILDS : un benchmark de décalages de distribution dans le monde réel

Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, Tony Lee, Etienne David, Ian Stavness, Wei Guo, Berton A. Earnshaw, Imran S. Haque, Sara Beery, Jure Leskovec, Anshul Kundaje, Emma Pierson, Sergey Levine, Chelsea Finn, Percy Liang
WILDS : un benchmark de décalages de distribution dans le monde réel
Résumé

Les décalages de distribution — c’est-à-dire la différence entre la distribution de formation et celle de test — peuvent fortement réduire la précision des systèmes d’apprentissage automatique (ML) déployés dans des environnements réels. Malgré leur fréquence dans les déploiements du monde réel, ces décalages sont sous-représentés dans les jeux de données largement utilisés par la communauté de l’IA aujourd’hui. Pour combler cet écart, nous présentons WILDS, un benchmark soigneusement constitué de 10 jeux de données reflétant une diversité de décalages de distribution naturellement présents dans les applications du monde réel : par exemple, les décalages entre hôpitaux pour l’identification de tumeurs ; entre pièges photographiques pour la surveillance de la faune ; ou encore entre le temps et l’espace dans l’imagerie satellitaire et la cartographie de la pauvreté. Sur chacun de ces jeux de données, nous montrons que l’entraînement standard conduit à une performance significativement plus faible en dehors de la distribution par rapport à celle à l’intérieur de la distribution. Ce fossé persiste même lorsque des modèles sont entraînés à l’aide de méthodes existantes destinées à atténuer les décalages de distribution, soulignant ainsi la nécessité de nouvelles méthodes d’entraînement capables de produire des modèles plus robustes face aux types de décalages rencontrés en pratique. Pour faciliter le développement de telles méthodes, nous mettons à disposition un package open source qui automatisé le chargement des jeux de données, inclut des architectures de modèles et des hyperparamètres par défaut, et standardise les évaluations. Le code et les classements sont disponibles à l’adresse https://wilds.stanford.edu.