PhotoChat: مجموعة بيانات للحوار البشري-البشري تشمل سلوك مشاركة الصور لنموذج متكامل للصور والنصوص

نقدّم مجموعة بيانات جديدة للحوار البشري-البشري، تُدعى PhotoChat، وهي أول مجموعة بيانات تسلط الضوء على سلوك مشاركة الصور في الرسائل الإلكترونية عبر الإنترنت. تحتوي PhotoChat على 12 ألف محادثة، وكل محادثة مُرَافقة بصورة شخصية تم مشاركتها خلال الحوار. وباستخدام هذه المجموعة، نقترح مهمتين لتمكين الأبحاث في مجال نمذجة النص والصورة: أولًا، مهمة توقع نية مشاركة الصورة، التي تتنبأ بامكانية نية المستخدم في مشاركة صورة خلال الدورة التالية من الحوار، وثانيًا، مهمة استرجاع الصور، التي تُسترجع الصورة الأكثر صلةً وفقًا لسياق المحادثة. بالإضافة إلى ذلك، نقدم نماذج أساسية (Baseline Models) للكليتين المهمتين باستخدام نماذج حديثة ومتطورة، ونُعلِن عن أدائها المعياري. حيث حققت أفضل نموذج لاسترجاع الصور معدل تذكّر (Recall@1) قدره 10.4% (من إجمالي 1000 مرشح)، وحقق أفضل نموذج لتوقع النية في مشاركة الصور معدل F1 قدره 58.1%، مما يدل على أن المجموعة تقدّم مشكلات واقعية مثيرة للاهتمام ولكنها صعبة التحدي. وسنُفرِّغ PhotoChat للجمهور لتمكين الأبحاث المستقبلية في المجتمع العلمي.