HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage résiduel multimodal pour le Q&A visuel

Jin-Hwa Kim Sang-Woo Lee Dong-Hyun Kwak Min-Oh Heo Jeonghee Kim Jung-Woo Ha Byoung-Tak Zhang

Résumé

Les réseaux neuronaux profonds continuent d'améliorer l'état de l'art des tâches de reconnaissance d'images grâce à diverses méthodes. Cependant, l'application de ces méthodes à la multimodalité reste limitée. Nous présentons les Réseaux Résiduels Multimodaux (MRN) pour l'apprentissage résiduel multimodal de la réponse aux questions visuelles, qui étend l'idée de l'apprentissage résiduel profond. Contrairement à l'apprentissage résiduel profond, les MRN apprennent efficacement la représentation conjointe à partir des informations visuelles et linguistiques. L'idée principale est d'utiliser une multiplication élément par élément pour les cartographies résiduelles conjointes, en exploitant l'apprentissage résiduel des modèles attentifs dans les études récentes. Notre étude explore divers modèles alternatifs introduits par la multimodalité. Nous obtenons des résultats d'état de l'art sur le jeu de données Visual QA pour les tâches Ouvertes et à Choix Multiples. De plus, nous introduisons une nouvelle méthode pour visualiser l'effet d'attention des représentations conjointes pour chaque bloc d'apprentissage en utilisant l'algorithme de rétropropagation, même si les caractéristiques visuelles sont effondrées sans information spatiale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp