HyperAIHyperAI
il y a 2 mois

Apprentissage résiduel multimodal pour le Q&A visuel

Jin-Hwa Kim; Sang-Woo Lee; Dong-Hyun Kwak; Min-Oh Heo; Jeonghee Kim; Jung-Woo Ha; Byoung-Tak Zhang
Apprentissage résiduel multimodal pour le Q&A visuel
Résumé

Les réseaux neuronaux profonds continuent d'améliorer l'état de l'art des tâches de reconnaissance d'images grâce à diverses méthodes. Cependant, l'application de ces méthodes à la multimodalité reste limitée. Nous présentons les Réseaux Résiduels Multimodaux (MRN) pour l'apprentissage résiduel multimodal de la réponse aux questions visuelles, qui étend l'idée de l'apprentissage résiduel profond. Contrairement à l'apprentissage résiduel profond, les MRN apprennent efficacement la représentation conjointe à partir des informations visuelles et linguistiques. L'idée principale est d'utiliser une multiplication élément par élément pour les cartographies résiduelles conjointes, en exploitant l'apprentissage résiduel des modèles attentifs dans les études récentes. Notre étude explore divers modèles alternatifs introduits par la multimodalité. Nous obtenons des résultats d'état de l'art sur le jeu de données Visual QA pour les tâches Ouvertes et à Choix Multiples. De plus, nous introduisons une nouvelle méthode pour visualiser l'effet d'attention des représentations conjointes pour chaque bloc d'apprentissage en utilisant l'algorithme de rétropropagation, même si les caractéristiques visuelles sont effondrées sans information spatiale.

Apprentissage résiduel multimodal pour le Q&A visuel | Articles de recherche récents | HyperAI