il y a 11 jours

HADA : Un cadre d'amalgame basé sur les graphes pour la recherche d'images et de texte

Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin

Résumé

De nombreux modèles ont été proposés pour les tâches visuelles et linguistiques, en particulier pour la tâche de récupération d’images et de textes. Tous les modèles d’état de l’art (SOTA) dans ce défi comportaient des centaines de millions de paramètres, et avaient été préentraînés sur de grands jeux de données externes, dont l’efficacité a été démontrée pour améliorer significativement les performances globales. Il est difficile de proposer un nouveau modèle avec une architecture originale, l’entraîner intensivement sur un jeu de données massif à l’aide de nombreux GPU, afin de surpasser plusieurs modèles SOTA déjà accessibles en ligne. Dans cet article, nous proposons un cadre compact basé sur un graphe, nommé HADA, qui permet de combiner des modèles préentraînés pour obtenir de meilleurs résultats, sans avoir à reconstruire un modèle depuis zéro. Tout d’abord, nous avons conçu une structure de graphe où les nœuds représentent les caractéristiques extraites à partir des modèles préentraînés, et les arêtes relient ces nœuds entre eux. Cette structure de graphe permet de capturer et de fusionner l’information provenant de chaque modèle préentraîné. Ensuite, un réseau neuronal de graphe (GNN) est appliqué pour mettre à jour les connexions entre les nœuds, afin d’obtenir un vecteur d’encodage représentatif pour une image et un texte. Enfin, nous utilisons la similarité cosinus pour associer images et textes pertinents, et inversement, afin de garantir un temps d’inférence faible. Nos expériences montrent qu’alors que HADA contient un nombre négligeable de paramètres entraînables, il améliore les performances de base de plus de 3,6 % selon les métriques d’évaluation sur le jeu de données Flickr30k. En outre, le modèle proposé n’a pas été entraîné sur aucun jeu de données externe, et ne nécessite qu’un seul GPU pour l’entraînement, en raison de son faible nombre de paramètres. Le code source est disponible à l’adresse suivante : https://github.com/m2man/HADA.