HyperAIHyperAI
il y a 16 jours

Mécanisme d'attention efficace pour le dialogue visuel capable de gérer toutes les interactions entre plusieurs entrées

Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
Mécanisme d'attention efficace pour le dialogue visuel capable de gérer toutes les interactions entre plusieurs entrées
Résumé

Dans les études récentes portant sur les tâches visuelles et linguistiques, une préoccupation majeure consiste à concevoir un mécanisme d'attention efficace capable de gérer les interactions entre les deux modalités. Le modèle Transformer a récemment été étendu et appliqué à plusieurs tâches biomodales, obtenant des résultats prometteurs. Pour les dialogues visuels, il devient nécessaire de prendre en compte les interactions entre trois ou plusieurs entrées — par exemple, une image, une question et l'historique du dialogue, voire même les composants individuels du dialogue. Dans cet article, nous proposons une architecture neuronale nommée Light-weight Transformer for Many Inputs (LTMI), capable de traiter efficacement toutes les interactions entre plusieurs telles entrées dans le cadre des dialogues visuels. Cette architecture repose sur une structure par blocs similaire à celle du Transformer et utilise le même principe de calcul de l'attention, tout en ne comportant qu’un nombre réduit de paramètres, tout en conservant une puissance représentationnelle suffisante pour l’objectif visé. Dans un cadre standard de dialogue visuel, une couche basée sur le bloc d’attention proposé contient moins d’un dixième des paramètres comparée à son homologue, une extension naturelle du Transformer. Les résultats expérimentaux sur les jeux de données VisDial valident l’efficacité de l’approche proposée, montrant une amélioration du meilleur score NDCG sur le jeu de données VisDial v1.0, passant de 57,59 à 60,92 avec un seul modèle, de 64,47 à 66,53 avec des modèles en ensemble, et même à 74,88 après une phase de fine-tuning supplémentaire. Le code de notre implémentation est disponible à l’adresse suivante : https://github.com/davidnvq/visdial.

Mécanisme d'attention efficace pour le dialogue visuel capable de gérer toutes les interactions entre plusieurs entrées | Articles de recherche récents | HyperAI