Décalages : Un jeu de données de décalages distributionnels réels sur plusieurs tâches à grande échelle

De nombreuses recherches ont été menées sur le développement de méthodes visant à améliorer la robustesse aux décalages de distribution et l'estimation d'incertitude. En revanche, très peu d'efforts ont été consacrés à la création de jeux de données standardisés et de benchmarks permettant d'évaluer ces approches. Par ailleurs, la majorité des travaux portant sur l'estimation d'incertitude et la robustesse se sont concentrés sur des techniques nouvelles basées sur des tâches à petite échelle telles que la régression ou la classification d'images. Or, de nombreuses tâches d'intérêt pratique impliquent des modalités différentes — données tabulaires, audio, texte ou données de capteurs — qui posent des défis significatifs en matière de régression et de prédiction structurée discrète ou continue. Étant donné l'état actuel du domaine, il est nécessaire de disposer d'un jeu de données standardisé à grande échelle, couvrant une variété de modalités affectées par des décalages de distribution. Cela permettrait aux chercheurs d'évaluer de manière significative la multitude de méthodes récemment développées pour la quantification de l'incertitude, ainsi que les critères d'évaluation et les meilleures pratiques actuelles. Dans ce travail, nous proposons le Shifts Dataset, un jeu de données dédié à l'évaluation des estimations d'incertitude et de la robustesse aux décalages de distribution. Ce jeu de données, recueilli auprès de sources et services industriels, comprend trois tâches, chacune correspondant à une modalité de données spécifique : la prévision météorologique à partir de données tabulaires, la traduction automatique et la prévision du mouvement des véhicules dans les systèmes de conduite autonome (self-driving car, SDC). Toutes ces modalités et tâches sont affectées par des décalages de distribution réels, « in-the-wild », et soulèvent des défis intéressants en matière d'estimation d'incertitude. Dans cette étude, nous décrivons en détail le jeu de données ainsi que les résultats de base obtenus pour chacune des tâches.