aussi simple que l'APC : surmonter les données manquantes et le déséquilibre de classes dans les séries temporelles grâce à l'apprentissage auto-supervisé

Les niveaux élevés de données manquantes et l’imbalance de classes sont des défis omniprésents qui apparaissent fréquemment simultanément dans les données temporelles du monde réel. Les méthodes existantes abordent ces problèmes séparément, en général en faisant des hypothèses fortes sur le processus de génération des données afin de réduire l’impact des informations manquantes. Dans ce travail, nous montrons au contraire comment une méthode d’apprentissage auto-supervisé générale, appelée Codage Prédictif Auto-régressif (APC, Autoregressive Predictive Coding), peut être exploitée pour surmonter à la fois les données manquantes et l’imbalance de classes sans nécessiter d’hypothèses fortes. Plus précisément, sur un jeu de données synthétique, nous démontrons que les méthodes de référence standard sont significativement améliorées grâce à l’utilisation de APC, avec des gains les plus importants observés dans le cas combiné d’un taux élevé de données manquantes et d’une forte imbalance de classes. Nous appliquons également APC à deux jeux de données réelles en temps série médical, et montrons qu’elle améliore la performance de classification dans tous les cas d’usage, aboutissant finalement à des résultats de pointe en termes d’AUPRC sur la référence Physionet.