HyperAIHyperAI

Command Palette

Search for a command to run...

HADA : Un cadre d'amalgame basé sur les graphes pour la recherche d'images et de texte

Manh-Duy Nguyen Binh T. Nguyen Cathal Gurrin

Résumé

De nombreux modèles ont été proposés pour les tâches visuelles et linguistiques, en particulier pour la tâche de récupération d’images et de textes. Tous les modèles d’état de l’art (SOTA) dans ce défi comportaient des centaines de millions de paramètres, et avaient été préentraînés sur de grands jeux de données externes, dont l’efficacité a été démontrée pour améliorer significativement les performances globales. Il est difficile de proposer un nouveau modèle avec une architecture originale, l’entraîner intensivement sur un jeu de données massif à l’aide de nombreux GPU, afin de surpasser plusieurs modèles SOTA déjà accessibles en ligne. Dans cet article, nous proposons un cadre compact basé sur un graphe, nommé HADA, qui permet de combiner des modèles préentraînés pour obtenir de meilleurs résultats, sans avoir à reconstruire un modèle depuis zéro. Tout d’abord, nous avons conçu une structure de graphe où les nœuds représentent les caractéristiques extraites à partir des modèles préentraînés, et les arêtes relient ces nœuds entre eux. Cette structure de graphe permet de capturer et de fusionner l’information provenant de chaque modèle préentraîné. Ensuite, un réseau neuronal de graphe (GNN) est appliqué pour mettre à jour les connexions entre les nœuds, afin d’obtenir un vecteur d’encodage représentatif pour une image et un texte. Enfin, nous utilisons la similarité cosinus pour associer images et textes pertinents, et inversement, afin de garantir un temps d’inférence faible. Nos expériences montrent qu’alors que HADA contient un nombre négligeable de paramètres entraînables, il améliore les performances de base de plus de 3,6 % selon les métriques d’évaluation sur le jeu de données Flickr30k. En outre, le modèle proposé n’a pas été entraîné sur aucun jeu de données externe, et ne nécessite qu’un seul GPU pour l’entraînement, en raison de son faible nombre de paramètres. Le code source est disponible à l’adresse suivante : https://github.com/m2man/HADA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp