Ein animiertes Bild sagt mindestens tausend Worte: Die Auswahl von Gif-basierten Antworten in multimodalen Dialogen

Online-Gespräche umfassen mehr als nur Text. Immer häufiger dienen bildbasierte Antworten wie Memes und animierte GIFs als kulturell anerkannte und oft humorvolle Reaktionen in Konversationen. Trotzdem haben sich die Fortschritte im Bereich der natürlichsprachlichen Verarbeitung (NLP) hauptsächlich auf multimodale Modelle konzentriert, während sich konversationsorientierte Dialogsysteme weitgehend darauf beschränkt haben, textbasierte Antworten zu generieren. In diesem Beitrag stellen wir einen neuen Datensatz von 1,56 Millionen Text-GIF-Konversationswechseln vor und führen ein neues multimodales Konversationsmodell „Pepe the King Prawn“ ein, das zur Auswahl von GIF-basierten Antworten dient. Wir zeigen, dass unser Modell relevante und hochwertige GIF-Antworten erzeugt. In einer großen randomisierten Kontrollstudie mit verschiedenen Modellen, die echten Nutzern antworten, beweisen wir zudem, dass unsere GIF-Antworten von der Community deutlich besser aufgenommen werden.