HyperAIHyperAI
منذ 2 أشهر

شبكات الانتباه المزدوجة للمنطق متعدد الوسائط والتطابق

Hyeonseob Nam; Jung-Woo Ha; Jeonghee Kim
شبكات الانتباه المزدوجة للمنطق متعدد الوسائط والتطابق
الملخص

نقترح شبكات الانتباه الثنائية (DANs) التي تستخدم آليات الانتباه البصري والنصي بشكل مشترك لالتقاط التفاعلات الدقيقة بين الرؤية واللغة. تقوم شبكات الانتباه الثنائية بالتركيز على مناطق محددة في الصور وكلمات في النص عبر خطوات متعددة وجمع المعلومات الأساسية من كلا الوسطين. بناءً على هذا الإطار، نقدم نوعين من شبكات الانتباه الثنائية للاستدلال المتعدد الأوضاع ومطابقة الأوضاع، على التوالي. يسمح نموذج الاستدلال لآليات الانتباه البصري والنصي بتحريك بعضها البعض أثناء الاستدلال التعاوني، مما يكون مفيدًا للمهام مثل الإجابة على الأسئلة البصرية (VQA). بالإضافة إلى ذلك، يستخدم نموذج المطابقة الآليتين لتقدير التشابه بين الصور والجمل من خلال التركيز على معانيهما المشتركة. تؤكد تجاربنا الواسعة فعالية شبكات الانتباه الثنائية في دمج الرؤية واللغة، حيث حققت أداءً رائدًا في مقاييس عامة للإجابة على الأسئلة البصرية ومطابقة الصورة والنّص.