HyperAIHyperAI
منذ 2 أشهر

شبكات الانتباه المتراكمة لأسئلة الصور والإجابة عليها

Zichao Yang; Xiaodong He; Jianfeng Gao; Li Deng; Alex Smola
شبكات الانتباه المتراكمة لأسئلة الصور والإجابة عليها
الملخص

يقدم هذا البحث شبكات الانتباه المتراكمة (SANs) التي تتعلم الإجابة على أسئلة اللغة الطبيعية من الصور. تقوم SANs باستخدام التمثيل الدلالي للسؤال كاستعلام للبحث عن المناطق في الصورة المرتبطة بالإجابة. نحن نعتقد أن إجابة الأسئلة المتعلقة بالصور غالباً ما تتطلب خطوات متعددة من الاستدلال. لذلك، قمنا بتطوير SAN متعدد الطبقات حيث نستعلم عن الصورة عدة مرات لاستنتاج الإجابة بشكل تدريجي. أظهرت التجارب التي أجريت على أربعة مجموعات بيانات لإجابة الأسئلة المتعلقة بالصور أن SANs المقترحة تتفوق بشكل كبير على الأساليب الرائدة السابقة. يوضح تصور طبقات الانتباه التقدم الذي تحققه SAN في تحديد العناصر البصرية ذات الصلة التي تقود إلى إجابة السؤال طبقة بعد طبقة.

شبكات الانتباه المتراكمة لأسئلة الصور والإجابة عليها | أحدث الأوراق البحثية | HyperAI