الحل المرجعي البصري باستخدام ذاكرة الانتباه للحوار البصري

الحوار البصري هو مهمة تتمثل في الإجابة على سلسلة من الأسئلة المرتبطة ببعضها البعض بناءً على صورة مدخلة، وغالبًا ما يتطلب حل الإشارات البصرية بين الأسئلة. هذا المشكلة تختلف عن الإجابة على الأسئلة البصرية (VQA)، والتي تعتمد على الانتباه المكاني (المعروف أيضًا بالترسيخ البصري) الذي يتم تقديره من زوج الصورة والسؤال. نقترح آلية انتباه جديدة تستفيد من الانتباهاات البصرية السابقة لحل الإشارة الحالية في سيناريو الحوار البصري. يُجهز النموذج المقترح بذاكرة انتباه ترابطية تخزن سلسلة من أزواج (الانتباه، المفتاح) السابقة. من هذه الذاكرة، يستعيد النموذج الانتباه السابق الأكثر صلة بالسؤال الحالي مع مراعاة حديثيته، وذلك لحل الإشارات المحتمل أن تكون غامضة. ثم يقوم النموذج بدمج الانتباه المستعاد مع انتباه مؤقت للحصول على الانتباه النهائي للسؤال الحالي؛ بشكل خاص، نستخدم التنبؤ الديناميكي للمعلمات لدمج الانتباهاات الاثنين تحت شرط السؤال. من خلال التجارب الواسعة على مجموعة بيانات حوار بصري مصنوعة جديدة، نظهر أن نموذجنا يتفوق بشكل كبير على أفضل التقنيات الحالية (بنسبة حوالي 16 نقطة مئوية) في الحالات التي يلعب فيها حل الإشارات البصرية دورًا مهمًا. علاوة على ذلك، حقق النموذج المقترح أداءً أفضل (تحسّن بنسبة حوالي 2 نقطة مئوية) في مجموعة بيانات الحوار البصري، رغم أنه يحتوي على عدد أقل بكثير من المعلمات مقارنة بالأساليب الأساسية.