HyperAIHyperAI
il y a 15 jours

Cadre probabiliste pour la résolution du dialogue visuel

Badri N. Patro, Anupriy, Vinay P. Namboodiri
Cadre probabiliste pour la résolution du dialogue visuel
Résumé

Dans cet article, nous proposons un cadre probabiliste pour résoudre la tâche du « Visual Dialog ». Cette tâche nécessite une raisonnement et une compréhension à la fois de la modalité visuelle, de la modalité linguistique et des connaissances courantes afin de formuler des réponses pertinentes. Diverses architectures ont été proposées pour aborder cette tâche à l’aide de techniques d’apprentissage profond multimodales, combinant des représentations visuelles et linguistiques. Toutefois, nous estimons qu’il est essentiel de comprendre et d’analyser les sources d’incertitude dans la résolution de cette tâche. Notre approche permet d’estimer l’incertitude tout en favorisant une génération diversifiée des réponses. L’approche proposée repose sur un module de représentation probabiliste fournissant des représentations pour l’image, la question et l’historique de la conversation, un module assurant l’obtention de représentations latentes diversifiées pour les réponses candidates à partir des représentations probabilistes, ainsi qu’un module de représentation d’incertitude qui sélectionne la réponse appropriée en minimisant l’incertitude. Nous évaluons de manière exhaustive notre modèle à l’aide d’une analyse ablation détaillée, d’une comparaison avec les méthodes de pointe et de visualisations de l’incertitude, qui contribuent à une meilleure compréhension de la méthode. Grâce au cadre probabiliste proposé, nous obtenons ainsi un système amélioré de dialogues visuels, plus explicite et plus interprétable.

Cadre probabiliste pour la résolution du dialogue visuel | Articles de recherche récents | HyperAI