Apprentissage multi-complémentaire et non étiqueté pour des pertes et des modèles arbitraires

Un cadre d’apprentissage faiblement supervisé nommé apprentissage par étiquettes complémentaires a récemment été proposé, dans lequel chaque échantillon est associé à une seule étiquette complémentaire indiquant l’une des classes auxquelles l’échantillon n’appartient pas. Toutefois, les méthodes existantes d’apprentissage par étiquettes complémentaires ne parviennent pas à tirer parti des échantillons non étiquetés facilement accessibles, ni des échantillons munis de plusieurs étiquettes complémentaires, qui sont pourtant plus informatifs. Afin de lever ces limitations, nous proposons dans cet article un nouveau cadre d’apprentissage multi-complémentaire et non étiqueté, permettant une estimation biaisée de la risk de classification à partir d’échantillons possédant un nombre quelconque d’étiquettes complémentaires ainsi que d’échantillons non étiquetés, pour toute fonction de perte et tout modèle. Nous introduisons d’abord un estimateur non biaisé du risque de classification à partir d’échantillons munis de plusieurs étiquettes complémentaires, puis améliorons cet estimateur en intégrant les échantillons non étiquetés dans la formulation du risque. Les bornes d’erreur d’estimation montrent que les méthodes proposées atteignent un taux de convergence paramétrique optimal. Enfin, les expériences menées sur des modèles linéaires et profonds démontrent l’efficacité de notre approche.