PMC-CLIP : Pré-entraînement contrastif langage-image à l'aide de documents biomédicaux

Les modèles fondamentaux entraînés sur de grandes bases de données connaissent une croissance récente marquée dans les domaines de la vision par ordinateur (CV) et du traitement du langage naturel (NLP). En revanche, le développement dans le domaine biomédical reste largement en retard en raison de la rareté des données. Pour remédier à ce problème, nous avons construit et publié PMC-OA, un ensemble de données biomédicales comprenant 1,6 million de paires image-légende issues du sous-ensemble Open Access de PubMedCentral, soit une taille huit fois supérieure à celle des précédents ensembles. PMC-OA couvre une diversité de modalités et de maladies, et la majorité des paires image-légende sont alignées à un niveau plus fin, à savoir au niveau des sous-figures et sous-légendes. Lors de l’entraînement préalable d’un modèle du type CLIP sur PMC-OA, notre modèle, nommé PMC-CLIP, atteint des résultats de pointe sur diverses tâches en aval, notamment la recherche image-texte sur ROCO, la classification d’images sur MedMNIST et la VQA médicale, avec une amélioration de +8,1 % en R@10 pour la recherche image-texte et +3,9 % en précision pour la classification d’images.