إطار احتمالي لحل المحادثة البصرية

في هذه الورقة، نقترح إطارًا احتماليًا لحل مهمة "المحادثة البصرية" (Visual Dialog). يتطلب حل هذه المهمة التفكير والفهم في الوسائط البصرية، ووسائط اللغة، والمعرفة الشائعة لتقديم الإجابات. تم اقتراح هياكل مختلفة لحل هذه المهمة باستخدام تقنيات التعلم العميق متعدد الوسائط المختلفة التي تجمع بين تمثيلات الصورة واللغة. ومع ذلك، نعتقد أنه من الضروري فهم وتحليل مصادر عدم اليقين المرتبطة بحل هذه المهمة. تتيح لنا منهجيتنا تقدير مستوى عدم اليقين، كما تساعد في توليد إجابات متنوعة. تم الحصول على النهج المقترح من خلال وحدة تمثيل احتمالي توفر تمثيلات للصورة، والسؤال، وتاريخ المحادثة، ووحدة تضمن الحصول على تمثيلات مخفية متنوعة للإجابات المرشحة بناءً على التمثيلات الاحتمالية، ووحدة تمثيل عدم اليقين التي تختار الإجابة المناسبة التي تقلل من مستوى عدم اليقين. قمنا بتقييم النموذج بشكل شامل من خلال تحليل استبدال تفصيلي، ومقارنة مع أحدث النماذج، وتصور مستويات عدم اليقين، مما يسهم في فهم أعمق للمنهجية. وباستخدام الإطار الاحتمالي المقترح، نحصل بذلك على نظام محادثة بصرية محسّن، ويتميز أيضًا بقدرته على التفسير الأوضح.