HyperAIHyperAI
منذ 2 أشهر

الحل المرجعي البصري باستخدام ذاكرة الانتباه للحوار البصري

Paul Hongsuck Seo; Andreas Lehrmann; Bohyung Han; Leonid Sigal
الحل المرجعي البصري باستخدام ذاكرة الانتباه للحوار البصري
الملخص

الحوار البصري هو مهمة تتمثل في الإجابة على سلسلة من الأسئلة المرتبطة ببعضها البعض بناءً على صورة مدخلة، وغالبًا ما يتطلب حل الإشارات البصرية بين الأسئلة. هذا المشكلة تختلف عن الإجابة على الأسئلة البصرية (VQA)، والتي تعتمد على الانتباه المكاني (المعروف أيضًا بالترسيخ البصري) الذي يتم تقديره من زوج الصورة والسؤال. نقترح آلية انتباه جديدة تستفيد من الانتباهاات البصرية السابقة لحل الإشارة الحالية في سيناريو الحوار البصري. يُجهز النموذج المقترح بذاكرة انتباه ترابطية تخزن سلسلة من أزواج (الانتباه، المفتاح) السابقة. من هذه الذاكرة، يستعيد النموذج الانتباه السابق الأكثر صلة بالسؤال الحالي مع مراعاة حديثيته، وذلك لحل الإشارات المحتمل أن تكون غامضة. ثم يقوم النموذج بدمج الانتباه المستعاد مع انتباه مؤقت للحصول على الانتباه النهائي للسؤال الحالي؛ بشكل خاص، نستخدم التنبؤ الديناميكي للمعلمات لدمج الانتباهاات الاثنين تحت شرط السؤال. من خلال التجارب الواسعة على مجموعة بيانات حوار بصري مصنوعة جديدة، نظهر أن نموذجنا يتفوق بشكل كبير على أفضل التقنيات الحالية (بنسبة حوالي 16 نقطة مئوية) في الحالات التي يلعب فيها حل الإشارات البصرية دورًا مهمًا. علاوة على ذلك، حقق النموذج المقترح أداءً أفضل (تحسّن بنسبة حوالي 2 نقطة مئوية) في مجموعة بيانات الحوار البصري، رغم أنه يحتوي على عدد أقل بكثير من المعلمات مقارنة بالأساليب الأساسية.

الحل المرجعي البصري باستخدام ذاكرة الانتباه للحوار البصري | أحدث الأوراق البحثية | HyperAI