المحادثة المرئية: المحادثات المنغرسة المثيرة للإعجاب

لتحقيق الهدف طويل المدى المتمثل في تمكين الآلات من الانخراط في المحادثات مع البشر، يجب أن تكون نماذجنا قادرة على جذب اهتمام شركاء الحديث. التواصل المستند إلى الصور، حيث تُجرى المحادثة بناءً على صورة معينة، هو إطار طبيعي يجذب البشر (هو وآخرون، 2014). في هذا البحث، ندرس الهياكل والقواعد البيانات الكبيرة لتحقيق هذا الهدف. نختبر مجموعة من الهندسات العصبية باستخدام تمثيلات الصور والنصوص الأكثر تقدماً، مع مراعاة طرق مختلفة لدمج هذه المكونات. لاختبار مثل هذه النماذج، جمعنا قاعدة بيانات للمحادثات البشريّة المستندة إلى الصور، حيث يُطلب من المتحدثين أداء أدوار معينة بناءً على مزاج أو أسلوب عاطفي محدد، لأن استخدام مثل هذه الصفات يعتبر عاملاً أساسياً في زيادة الجاذبية (غو وآخرون، 2019). تتكون قاعدة بياناتنا "Image-Chat" من 202,000 حوار على 202,000 صورة باستخدام 215 صفة أسلوبية ممكنة. تظهر المقاييس التلقائية وتقييمات البشر للجاذبية فعالية نهجنا؛ بشكل خاص، حققنا أفضل الأداء الحالي في مهمة IGC القائمة بالفعل، وأفضل نموذج لدينا يكاد يكون مساوٍ للأداء البشري في مجموعة اختبار Image-Chat (المفضّل بنسبة 47.7٪ من الوقت).