HyperAIHyperAI

Command Palette

Search for a command to run...

VLCDoC : Modèle de pré-entraînement contrastif vision-langage pour la classification de documents multimodaux

Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol Oriol Ramos Terrades

Résumé

L’apprentissage multimodal à partir de données documentaires a récemment connu un grand succès, car il permet de pré-entraîner des caractéristiques sémantiquement significatives comme une connaissance a priori dans une tâche descendante apprenable. Dans cet article, nous abordons le problème de la classification de documents en apprenant des représentations croisées entre modalités à partir de signaux linguistiques et visuels, en tenant compte des relations intra- et inter-modalités. Contrairement à la fusion des caractéristiques issues de différentes modalités dans un espace de représentation conjoint, la méthode proposée exploite des interactions de haut niveau et apprend des informations sémantiques pertinentes à partir de flux d’attention efficaces à l’intérieur et entre les modalités. L’objectif d’apprentissage proposé repose sur un équilibre entre des tâches d’alignement intra- et inter-modalités, où la distribution de similarité pour chaque tâche est calculée en contractant les paires de samples positifs tout en simultanément contrastant les paires négatives dans l’espace de représentation conjoint. Des expériences étendues sur des jeux de données publics de classification de documents démontrent l’efficacité et la généralisation de notre modèle sur des jeux de données à petite et grande échelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VLCDoC : Modèle de pré-entraînement contrastif vision-langage pour la classification de documents multimodaux | Articles | HyperAI