HyperAIHyperAI
منذ 2 أشهر

الإجابة على أسئلة الصور باستخدام الشبكة العصبية المتشابكة مع التنبؤ الديناميكي بالمعامِلات

Hyeonwoo Noh; Paul Hongsuck Seo; Bohyung Han
الإجابة على أسئلة الصور باستخدام الشبكة العصبية المتشابكة مع التنبؤ الديناميكي بالمعامِلات
الملخص

نواجه مشكلة الإجابة على الأسئلة المتعلقة بالصور (ImageQA) من خلال تعلم شبكة عصبية تقنية التجميع (CNN) مع طبقة معلمة ديناميكية يتم تحديد أوزانها بشكل متكيف بناءً على الأسئلة. لتنبؤ المعلمات المتكيفة، نستخدم شبكة تنبؤ بالمعلمات منفصلة، تتكون من وحدة متكررة ذات بوابات (GRU) تأخذ السؤال كمدخلاتها وطبقة متصلة بالكامل تولد مجموعة من الأوزان المرشحة كمخرجاتها. ومع ذلك، يشكل بناء شبكة تنبؤ بالمعلمات لعدد كبير من المعلمات في الطبقة الديناميكية المتصلة بالكامل للشبكة العصبية التقنية التجميع (CNN) تحديًا. نقلل من تعقيد هذه المشكلة بدمج تقنية التجزئة، حيث يتم اختيار الأوزان المرشحة التي توفرها شبكة تنبؤ بالمعلمات باستخدام دالة تجزئة محددة مسبقًا لتحديد الأوزان الفردية في الطبقة الديناميكية للمعلمة. يتم تدريب الشبكة المقترحة---الشبكة المشتركة مع الشبكة العصبية التقنية التجميع (CNN) للإجابة على الأسئلة المتعلقة بالصور وشبكة تنبؤ بالمعلمات---من النهاية إلى النهاية عبر الانتشار العكسي، حيث يتم تهيئة أوزانها باستخدام شبكتي CNN و GRU المدربتين مسبقًا. يوضح الخوارزمية المقترحة أدائها الرائد على جميع مقاييس ImageQA العامة المتاحة.

الإجابة على أسئلة الصور باستخدام الشبكة العصبية المتشابكة مع التنبؤ الديناميكي بالمعامِلات | أحدث الأوراق البحثية | HyperAI