HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات الانتباه ثنائية الخطية

Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang

الملخص

شبكات الانتباه في التعلم متعدد الوسائط تقدم طريقة فعالة لاستخدام المعلومات البصرية المعطاة بشكل منتقى. ومع ذلك، فإن التكلفة الحسابية لتعلم توزيعات الانتباه لكل زوج من قنوات المدخل المتعددة للوسائط باهظة الثمن بشكل مفرط. لحل هذه المشكلة، يتم بناء انتباه مشترك (co-attention) لتوزيعين منفصلين للانتباه لكل وسيلة، مع تجاهل التفاعل بين مدخلات الوسائط المتعددة. في هذا البحث، نقترح شبكات الانتباه الثنائية (BAN) التي تجد توزيعات انتباه ثنائية لاستخدام المعلومات البصرية واللغوية المعطاة بسلاسة. تعتبر BAN التفاعلات الثنائية بين مجموعتين من قنوات المدخل، بينما يقوم التقريب الثنائي ذو الرتبة المنخفضة (low-rank bilinear pooling) باستخراج التمثيلات المشتركة لكل زوج من القنوات. بالإضافة إلى ذلك، نقترح نوعًا متغيرًا من شبكات البقايا متعددة الوسائط (multimodal residual networks) لاستغلال خرائط الانتباه الثمانية الخاصة بـ BAN بكفاءة. نقيم نموذجنا كميًا وكيفيًا على مجموعة بيانات الإجابة على الأسئلة البصرية (VQA 2.0) ومجموعة بيانات Flickr30k Entities، مما يظهر أن BAN يتفوق بشكل كبير على الأساليب السابقة ويحقق أفضل النتائج الحالية في كلتا المجموعتين.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp