HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات الانتباه الخطي X-Linear لوصف الصور

Yingwei Pan Ting Yao Yehao Li Tao Mei

الملخص

أظهر التقدم الأخير في التعرف البصري الدقيق وإجابة الأسئلة البصرية استخدام التجميع التربيعي (Bilinear Pooling)، الذي نجح في نمذجة التفاعلات من الدرجة الثانية عبر المدخلات متعددة الوسائط. ومع ذلك، لم تُقدَّم حتى الآن أدلة تدعم بناء هذه التفاعلات بالتوازي مع آلية الانتباه في إنشاء العناوين التوضيحية للصور. في هذه الورقة، نُقدِّم كتلة انتباه موحدة تُسمى "كتلة الانتباه الخطي المُوسَّع" (X-Linear Attention Block)، التي تُوظِّف بشكل كامل التجميع التربيعي لاستغلال المعلومات البصرية بشكل انتقائي أو إجراء استدلال متعدد الوسائط. من الناحية الفنية، تُستخدَم كتلة الانتباه الخطي المُوسَّع في نفس الوقت توزيعات الانتباه التربيعية المكانية والمحورية (channel-wise) لالتقاط التفاعلات من الدرجة الثانية بين الميزات الأحادية أو متعددة الوسائط المدخلة. كما يمكن نمذجة تفاعلات ميزات من الدرجة الأعلى وحتى من الدرجة اللانهائية بسهولة من خلال تراكب عدة كتل من الانتباه الخطي المُوسَّع، مع تزويدها بوحدة التنشيط الأسية (ELU) بطريقة لا تتطلب معلمات إضافية. علاوةً على ذلك، نقدِّم شبكات الانتباه الخطي المُوسَّع (X-Linear Attention Networks)، والمعروفة بـ X-LAN، التي تُدمج بشكل جديد كتلة الانتباه الخطي المُوسَّع في مُشفِّر الصور ومحرّك الجملة في نموذج إنشاء العناوين التوضيحية للصور، بهدف الاستفادة من التفاعلات ذات الدرجة العالية داخل الوسائط وبينها. أظهرت التجارب على معيار COCO أن نموذج X-LAN يحقق أفضل أداء منشور حتى الآن في معيار CIDEr، بقيمة 132.0% على مجموعة اختبار Karpathy من COCO. وفي حال تزويد نموذج Transformer بكتل الانتباه الخطي المُوسَّع، يرتفع معيار CIDEr إلى 132.8%. تم إتاحة الشفرة المصدرية على الرابط: \url{https://github.com/Panda-Peter/image-captioning}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp