الانتباه البصري المتكرر في الحوار البصري

الحوار البصري هو مهمة صعبة تجمع بين الرؤية واللغة، وتتطلب من الوكيل الإجابة على أسئلة متعددة الأدوار حول صورة. عادةً ما يتطلب حل هذه المهمة مواجهة مشكلتين رئيسيتين: (1) كيفية الإجابة على الأسئلة المرتبطة بصرياً، وهي التحدي الأساسي في مجال الإجابة على الأسئلة البصرية (VQA)؛ (2) كيفية استنتاج الارتباط المشترك بين الأسئلة وسجل الحوار. مثال على الارتباط البصري المشترك هو: الروابط (\eg، "هُم") في السؤال (\eg، "هل هُم مضاءون أم معتمون؟") ترتبط بالأسماء (\eg، "المصابيح") التي تظهر في سجل الحوار (\eg، "كم عدد المصابيح الموجودة؟") والكائنات المرتبطة بصرياً في الصورة. في هذا العمل، لحل مشكلة الارتباط البصري المشترك في الحوار البصري، نقترح آلية انتباه جديدة تسمى الانتباه البصري المتكرر (RvA). بصفة خاصة، يتصفح وكيلنا سجل الحوار حتى يكتسب ثقة كافية في حل مشكلة الارتباط البصري المشترك، ويقوم بتحسين الانتباه البصري بشكل متكرر. النتائج التجريبية الكمية والنوعية على قاعدة بيانات VisDial v0.9 وv1.0 الضخمة تثبت أن الآلية المقترحة RvA لا فقط تتفوق على أفضل الأساليب الحالية فحسب، بل أيضاً تحقق تكراراً معقولاً وخرائط انتباه قابلة للتفسير دون الحاجة إلى تعليقات إضافية. يمكن الوصول إلى الكود من خلال الرابط \url{https://github.com/yuleiniu/rva}.