صورة متحركة تقول على الأقل ألف كلمة: اختيار ردود تعتمد على الصور المتحركة في الحوار متعدد الوسائط

المحادثات عبر الإنترنت تشمل أكثر من مجرد النصوص. بشكل متزايد، تُستخدم الردود القائمة على الصور مثل الميمات والصور المتحركة (GIF) كردود معترف بها ثقافياً وغالباً ما تكون مضحكة في المحادثات. ومع ذلك، بينما اتسعت معالجة اللغة الطبيعية (NLP) لتشمل نماذج متعددة الأوضاع، ركزت أنظمة الحوار التفاعلية بشكل كبير على إنشاء ردود نصية فقط. هنا، نقدم مجموعة بيانات جديدة تتضمن 1.56 مليون دورة محادثة بين النصوص والصور المتحركة (GIF)، ونقدم نموذج حواري متعدد الأوضاع جديد يُدعى "بيبي الجمبري الملك" (Pepe the King Prawn) لاختيار ردود قائمة على الصور المتحركة. نثبت أن نموذجنا ينتج ردود صور متحركة ذات صلة وجودة عالية، وفي تجربة ضابطة عشوائية كبيرة شملت عدة نماذج ترد على مستخدمين حقيقيين، أظهرنا أن ردود نموذجنا بالصور المتحركة يتم استقبالها بشكل أفضل بكثير من قبل المجتمع.