Réinterroger le pré-entraînement et l'auto-entraînement

La pré-formation est un paradigme dominant en vision par ordinateur. Par exemple, la pré-formation supervisée sur ImageNet est couramment utilisée pour initialiser les architectures de base des modèles de détection et de segmentation d’objets. Toutefois, He et al. ont révélé un résultat surprenant : la pré-formation sur ImageNet a un impact limité sur la détection d’objets sur COCO. Dans cette étude, nous explorons une autre méthode, la self-training, pour exploiter des données supplémentaires dans le même cadre expérimental, et la comparons à la pré-formation sur ImageNet. Notre analyse met en évidence la généralité et la flexibilité de la self-training, en apportant trois nouvelles observations : 1) une augmentation de données plus puissante ainsi qu’un plus grand volume de données étiquetées réduisent davantage la valeur de la pré-formation ; 2) contrairement à la pré-formation, la self-training est toujours bénéfique lorsqu’on utilise une augmentation de données plus forte, qu’il s’agisse de faibles ou de grandes quantités de données ; 3) lorsque la pré-formation est utile, la self-training permet d’obtenir des performances supérieures. Par exemple, sur le jeu de données COCO pour la détection d’objets, la pré-formation améliore les résultats lorsque l’on utilise un cinquième seulement des données étiquetées, mais nuit à la précision lorsqu’on utilise l’ensemble des données étiquetées. En revanche, la self-training apporte des améliorations positives allant de +1,3 à +3,4 AP pour toutes les tailles du jeu de données. Autrement dit, la self-training fonctionne particulièrement bien dans le même cadre où la pré-formation échoue (utilisation d’ImageNet pour aider COCO). Sur le jeu de données PASCAL pour la segmentation, qui est bien plus petit que COCO, bien que la pré-formation apporte une amélioration significative, la self-training permet d’aller au-delà du modèle pré-entraîné. Sur la détection d’objets COCO, nous atteignons un score de 54,3 AP, soit une amélioration de +1,5 AP par rapport au meilleur modèle SpineNet. Sur la segmentation PASCAL, nous obtenons un mIOU de 90,5, soit une amélioration de +1,5 % par rapport au résultat précédent de l’état de l’art, DeepLabv3+.