Une image animée vaut au moins mille mots : Sélection de réponses basées sur des GIFs dans le dialogue multimodal

Les conversations en ligne ne se limitent pas au texte. De plus en plus, des réponses basées sur des images, telles que les memes et les gifs animés, sont utilisées comme des réponses culturellement reconnues et souvent humoristiques dans les échanges. Cependant, bien que le traitement du langage naturel (NLP) ait évolué vers des modèles multimodaux, les systèmes de dialogue conversationnel se sont principalement concentrés sur la génération de réponses textuelles. Dans cet article, nous présentons un nouveau jeu de données comprenant 1,56 million de tours de conversation texte-gif et introduisons un nouveau modèle conversationnel multimodal nommé Pepe the King Prawn pour sélectionner des réponses basées sur des gifs. Nous démontrons que notre modèle produit des réponses gif pertinentes et de haute qualité, et dans une grande étude contrôlée randomisée impliquant plusieurs modèles répondant à des utilisateurs réels, nous montrons que nos réponses avec des gifs sont significativement mieux perçues par la communauté.