HyperAIHyperAI

Command Palette

Search for a command to run...

آلية انتباه فعّالة للحوار البصري قادرة على معالجة جميع التفاعلات بين المدخلات المتعددة

Van-Quang Nguyen Masanori Suganuma Takayuki Okatani

الملخص

أصبح من الشواغل الأساسية في الدراسات الحديثة المتعلقة بمهمات الرؤية واللغة تصميم آلية انتباه فعّالة للتعامل مع التفاعلات بين الوسائط المزدوجة. وقد تم مؤخرًا توسيع نموذج الترانسפורمر وتطبيقه على عدد من المهام الثنائية، مما أدى إلى نتائج واعدة. وبالنسبة لل диالوج البصري، أصبح من الضروري أخذ التفاعلات بين ثلاثة مدخلات أو أكثر بعين الاعتبار، أي الصورة، والسؤال، وسجل الحوار، أو حتى المكونات الفردية للحوار. في هذه الورقة، نقدّم معمارية عصبية تُسمى "الترانسفورمر الخفيف للعديد من المدخلات" (LTMI) التي تُعد فعّالة في التعامل مع جميع التفاعلات بين هذه المدخلات المتعددة في سياق الحوار البصري. تمتلك هذه المعمارية هيكلًا مكوّنًا من كتل مشابه لنموذج الترانسفورمر، وتستخدم نفس تصميم حساب الانتباه، لكنها تمتلك عددًا صغيرًا جدًا من المعلمات، مع الحفاظ على قدرة تمثيلية كافية للغرض. وبافتراض إعداد قياسي للحوار البصري، فإن طبقة مبنية على كتلة الانتباه المقترحة تحتوي على أقل من عشرة بالمائة من عدد المعلمات مقارنةً بطبقة الترانسفورمر التقليدية المماثلة. وتوحي النتائج التجريبية على مجموعات بيانات VisDial بفعالية النهج المقترح، حيث أظهرت تحسينات في أفضل نتيجة NDCG على مجموعة بيانات VisDial v1.0 من 57.59 إلى 60.92 باستخدام نموذج واحد، ومن 64.47 إلى 66.53 باستخدام نماذج متعددة (ensemble)، بل وحتى إلى 74.88 مع تحسين إضافي (fine-tuning). يتوفر كود التنفيذ الخاص بنا على الرابط التالي: https://github.com/davidnvq/visdial.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp