HyperAIHyperAI
منذ 15 أيام

إطار احتمالي لحل المحادثة البصرية

Badri N. Patro, Anupriy, Vinay P. Namboodiri
إطار احتمالي لحل المحادثة البصرية
الملخص

في هذه الورقة، نقترح إطارًا احتماليًا لحل مهمة "المحادثة البصرية" (Visual Dialog). يتطلب حل هذه المهمة التفكير والفهم في الوسائط البصرية، ووسائط اللغة، والمعرفة الشائعة لتقديم الإجابات. تم اقتراح هياكل مختلفة لحل هذه المهمة باستخدام تقنيات التعلم العميق متعدد الوسائط المختلفة التي تجمع بين تمثيلات الصورة واللغة. ومع ذلك، نعتقد أنه من الضروري فهم وتحليل مصادر عدم اليقين المرتبطة بحل هذه المهمة. تتيح لنا منهجيتنا تقدير مستوى عدم اليقين، كما تساعد في توليد إجابات متنوعة. تم الحصول على النهج المقترح من خلال وحدة تمثيل احتمالي توفر تمثيلات للصورة، والسؤال، وتاريخ المحادثة، ووحدة تضمن الحصول على تمثيلات مخفية متنوعة للإجابات المرشحة بناءً على التمثيلات الاحتمالية، ووحدة تمثيل عدم اليقين التي تختار الإجابة المناسبة التي تقلل من مستوى عدم اليقين. قمنا بتقييم النموذج بشكل شامل من خلال تحليل استبدال تفصيلي، ومقارنة مع أحدث النماذج، وتصور مستويات عدم اليقين، مما يسهم في فهم أعمق للمنهجية. وباستخدام الإطار الاحتمالي المقترح، نحصل بذلك على نظام محادثة بصرية محسّن، ويتميز أيضًا بقدرته على التفسير الأوضح.

إطار احتمالي لحل المحادثة البصرية | أحدث الأوراق البحثية | HyperAI