VLCDoC : Modèle de pré-entraînement contrastif vision-langage pour la classification de documents multimodaux

L’apprentissage multimodal à partir de données documentaires a récemment connu un grand succès, car il permet de pré-entraîner des caractéristiques sémantiquement significatives comme une connaissance a priori dans une tâche descendante apprenable. Dans cet article, nous abordons le problème de la classification de documents en apprenant des représentations croisées entre modalités à partir de signaux linguistiques et visuels, en tenant compte des relations intra- et inter-modalités. Contrairement à la fusion des caractéristiques issues de différentes modalités dans un espace de représentation conjoint, la méthode proposée exploite des interactions de haut niveau et apprend des informations sémantiques pertinentes à partir de flux d’attention efficaces à l’intérieur et entre les modalités. L’objectif d’apprentissage proposé repose sur un équilibre entre des tâches d’alignement intra- et inter-modalités, où la distribution de similarité pour chaque tâche est calculée en contractant les paires de samples positifs tout en simultanément contrastant les paires négatives dans l’espace de représentation conjoint. Des expériences étendues sur des jeux de données publics de classification de documents démontrent l’efficacité et la généralisation de notre modèle sur des jeux de données à petite et grande échelle.