Deux peuvent jouer à ce jeu : Dialogue visuel avec génération et réponse discriminatives de questions

La conversation humaine est un mécanisme complexe avec des nuances subtiles. Il s'agit donc d'un objectif ambitieux que de développer des agents d'intelligence artificielle capables de participer de manière fluide à une conversation. Bien que nous soyons encore loin d'atteindre cet objectif, les progrès récents dans le domaine du réponse aux questions visuelles, de la légendage d'images et de la génération de questions visuelles montrent que les systèmes de dialogue pourraient être réalisables dans un avenir pas trop lointain. Dans cette perspective, un nouveau jeu de données a été récemment introduit et des résultats encourageants ont été démontrés, en particulier pour le réponse aux questions. Dans cet article, nous présentons une méthode basique symétrique discriminative qui peut être appliquée à la fois pour prédire une réponse et pour prédire une question. Nous montrons que cette méthode performe au niveau de l'état de l'art, même en comparaison avec les méthodes basées sur les réseaux mémoire. De plus, pour la première fois sur le jeu de données de dialogue visuel, nous évaluons la performance d'un système posant des questions et démontrons comment un dialogue visuel peut être généré à partir de la génération discriminative de questions et du réponse aux questions.