HyperAIHyperAI

Command Palette

Search for a command to run...

صورة متحركة تقول على الأقل ألف كلمة: اختيار ردود تعتمد على الصور المتحركة في الحوار متعدد الوسائط

Xingyao Wang David Jurgens

الملخص

المحادثات عبر الإنترنت تشمل أكثر من مجرد النصوص. بشكل متزايد، تُستخدم الردود القائمة على الصور مثل الميمات والصور المتحركة (GIF) كردود معترف بها ثقافياً وغالباً ما تكون مضحكة في المحادثات. ومع ذلك، بينما اتسعت معالجة اللغة الطبيعية (NLP) لتشمل نماذج متعددة الأوضاع، ركزت أنظمة الحوار التفاعلية بشكل كبير على إنشاء ردود نصية فقط. هنا، نقدم مجموعة بيانات جديدة تتضمن 1.56 مليون دورة محادثة بين النصوص والصور المتحركة (GIF)، ونقدم نموذج حواري متعدد الأوضاع جديد يُدعى "بيبي الجمبري الملك" (Pepe the King Prawn) لاختيار ردود قائمة على الصور المتحركة. نثبت أن نموذجنا ينتج ردود صور متحركة ذات صلة وجودة عالية، وفي تجربة ضابطة عشوائية كبيرة شملت عدة نماذج ترد على مستخدمين حقيقيين، أظهرنا أن ردود نموذجنا بالصور المتحركة يتم استقبالها بشكل أفضل بكثير من قبل المجتمع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp