Effet de l'échelle de pré-entraînement sur le transfert intra- et inter-domaines en apprentissage plein et à faible exemplaire pour des images radiographiques thoraciques naturelles et médicales

L’augmentation de l’échelle des modèles, des données et des ressources informatiques utilisées pendant l’entraînement préalable a été systématiquement montrée comme étant un facteur clé d’amélioration de la généralisation et de l’apprentissage transféré dans de nombreux travaux portant sur la modélisation linguistique et la reconnaissance d’images naturelles. Toutefois, la plupart des études sur les effets positifs d’une plus grande échelle ont été menées dans un cadre restreint, où les données source et cible appartenaient à la même distribution (in-domain), étant relativement proches l’une de l’autre. Afin d’étudier l’impact de l’augmentation de l’échelle, tant dans des scénarios in-domain que out-of-domain, lors de transferts complets (full-shot) ou à faible nombre d’exemples (few-shot), nous combinons ici, pour la première fois, de grands jeux de données médicaux ouverts d’imagerie radiologique thoracique, afin d’atteindre une échelle dans le domaine de l’imagerie médicale comparable à celle du dataset ImageNet-1k, largement utilisé pour l’entraînement préalable dans le domaine des images naturelles. Nous menons ensuite une phase d’entraînement supervisé, en variant la taille du réseau ainsi que l’échelle et le domaine des données sources, qui peuvent être soit de grandes bases naturelles (ImageNet-1k/21k), soit de grandes bases médicales d’images radiographiques thoraciques. Les modèles pré-entraînés sont ensuite transférés vers des cibles naturelles ou médicales variées. Nous observons une amélioration significative liée à une plus grande échelle d’entraînement préalable pour les transferts intra-domaine, tant dans les cas naturel → naturel que médical → médical. En revanche, pour les transferts inter-domaine naturel → médical, les bénéfices d’une plus grande échelle d’entraînement préalable sont visibles uniquement sur des cibles radiographiques de grande taille dans le régime full-shot ; ces améliorations ne sont pas perceptibles pour les cibles plus petites ou dans le régime few-shot. De manière remarquable, les grands réseaux pré-entraînés sur le très grand jeu de données naturel ImageNet-21k se révèlent aussi performants, voire meilleurs, que les réseaux pré-entraînés sur les plus grandes bases disponibles de données médicales d’imagerie radiographique thoracique lorsqu’ils sont transférés vers des cibles radiographiques de grande taille. Nous concluons que l’augmentation substantielle de la taille du modèle ainsi que de l’échelle des données sources génériques, non spécifiques au domaine médical (comme ImageNet-21k), pendant l’entraînement préalable, permet d’obtenir des transferts de haute qualité vers des cibles spécifiques au domaine médical, tout en réduisant la dépendance aux grandes bases de données médicales spécifiques, souvent difficiles à obtenir en pratique.