HyperAIHyperAI
منذ 16 أيام

شبكة انتباه متعددة المقاييس للحوار البصري

Sungjin Park, Taesun Whang, Yeochan Yoon, Heuiseok Lim
شبكة انتباه متعددة المقاييس للحوار البصري
الملخص

المحادثة البصرية هي مهمة صعبة في مجال الرؤية واللغة، حيث يتم الإجابة على سلسلة من الأسئلة التي تُستند بصريًا إلى صورة معطاة. ولحل مهمة المحادثة البصرية، يُطلب فهم عالي المستوى للإدخالات متعددة الوسائط المختلفة (مثل السؤال، تاريخ المحادثة، والصورة). وبشكل خاص، يجب على الوكيل أن: 1) يحدد النية المعجمية للسؤال، و2) يُنسق بين المحتويات النصية والبصرية ذات الصلة بالسؤال ضمن إدخالات متعددة الوسائط غير المتجانسة. في هذه الورقة، نقترح شبكة الانتباه متعددة المقاييس (MVAN)، التي تُستفيد من عدة وجهات نظر تتعلق بالإدخالات غير المتجانسة باستخدام آليات الانتباه. وتُمكّن MVAN من التقاط المعلومات ذات الصلة بالسؤال من تاريخ المحادثة من خلال وظيفتين متكاملتين (ألا وهما: تجميع الموضوعات، وتطابق السياق)، كما تُبنى تمثيلات متعددة الوسائط من خلال عمليات تزامن متسلسلة (ألا وهي: تزامن الوسائط). وتُظهر النتائج التجريبية على مجموعة بيانات VisDial v1.0 فعالية النموذج المقترح، حيث يتفوق على الطرق الرائدة السابقة من حيث جميع مقاييس التقييم.