HyperAIHyperAI

Command Palette

Search for a command to run...

Une image animée vaut au moins mille mots : Sélection de réponses basées sur des GIFs dans le dialogue multimodal

Xingyao Wang David Jurgens

Résumé

Les conversations en ligne ne se limitent pas au texte. De plus en plus, des réponses basées sur des images, telles que les memes et les gifs animés, sont utilisées comme des réponses culturellement reconnues et souvent humoristiques dans les échanges. Cependant, bien que le traitement du langage naturel (NLP) ait évolué vers des modèles multimodaux, les systèmes de dialogue conversationnel se sont principalement concentrés sur la génération de réponses textuelles. Dans cet article, nous présentons un nouveau jeu de données comprenant 1,56 million de tours de conversation texte-gif et introduisons un nouveau modèle conversationnel multimodal nommé Pepe the King Prawn pour sélectionner des réponses basées sur des gifs. Nous démontrons que notre modèle produit des réponses gif pertinentes et de haute qualité, et dans une grande étude contrôlée randomisée impliquant plusieurs modèles répondant à des utilisateurs réels, nous montrons que nos réponses avec des gifs sont significativement mieux perçues par la communauté.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Une image animée vaut au moins mille mots : Sélection de réponses basées sur des GIFs dans le dialogue multimodal | Articles | HyperAI