HyperAIHyperAI

Command Palette

Search for a command to run...

Ein animiertes Bild sagt mindestens tausend Worte: Die Auswahl von Gif-basierten Antworten in multimodalen Dialogen

Xingyao Wang David Jurgens

Zusammenfassung

Online-Gespräche umfassen mehr als nur Text. Immer häufiger dienen bildbasierte Antworten wie Memes und animierte GIFs als kulturell anerkannte und oft humorvolle Reaktionen in Konversationen. Trotzdem haben sich die Fortschritte im Bereich der natürlichsprachlichen Verarbeitung (NLP) hauptsächlich auf multimodale Modelle konzentriert, während sich konversationsorientierte Dialogsysteme weitgehend darauf beschränkt haben, textbasierte Antworten zu generieren. In diesem Beitrag stellen wir einen neuen Datensatz von 1,56 Millionen Text-GIF-Konversationswechseln vor und führen ein neues multimodales Konversationsmodell „Pepe the King Prawn“ ein, das zur Auswahl von GIF-basierten Antworten dient. Wir zeigen, dass unser Modell relevante und hochwertige GIF-Antworten erzeugt. In einer großen randomisierten Kontrollstudie mit verschiedenen Modellen, die echten Nutzern antworten, beweisen wir zudem, dass unsere GIF-Antworten von der Community deutlich besser aufgenommen werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein animiertes Bild sagt mindestens tausend Worte: Die Auswahl von Gif-basierten Antworten in multimodalen Dialogen | Paper | HyperAI