منذ 2 أشهر
الشرح متعدد الوسائط الموثوق به لأسئلة الإجابة البصرية
Wu, Jialin ; Mooney, Raymond J.

الملخص
قدرة أنظمة الذكاء الاصطناعي على توضيح منطقها أمر حاسم لفعاليتهاوثقافتها. لقد مكّنت الشبكات العصبية العميقة من تحقيق تقدم كبير في العديدمن المشكلات الصعبة مثل الإجابة على الأسئلة البصرية (VQA). ومع ذلك، فإن معظم هذهالأنظمة هي صناديق سوداء شفافة قليلًا ولديها قدرة محدودة على التفسير. يقدم هذا البحثنهجًا جديدًا لتطوير نظام VQA عالي الأداء يمكنه توضيح إجاباته بتفصيلات نصية وبصريةمتكاملة تعكس جوانب مهمة من المنطق الكامن وراءها مع التقاط أسلوب التفسيرات البشريةالمفهومة. تظهر التقييمات التجريبية الواسعة المزايا التي يوفرها هذا النهج مقارنة بالطرقالمنافسة باستخدام مقاييس التقييم الآلي ومقاييس التقييم البشري.