HyperAIHyperAI

Command Palette

Search for a command to run...

التفاعل الثلاثي المكثف للإجابة على الأسئلة البصرية

Tuong Do Thanh-Toan Do Huy Tran Erman Tjiputra Quang D. Tran

الملخص

في مهام الإجابة على الأسئلة البصرية (VQA)، توجد علاقة قوية بين إجابات الأسئلة ودلالة السؤال والمحتوى البصري. ولذلك، لاستخدام مختار للمعلومات الواردة من الصورة والسؤال والإجابة، نقترح نموذج تفاعل ثلاثي الخطي جديد يتعلم في نفس الوقت العلاقات العالية المستوى بين هذه المدخلات الثلاثة. وبالإضافة إلى ذلك، وللتغلب على تعقيد التفاعلات، نُقدّم تحليلًا متعدد الوسائط قائمًا على التنسور من نوع PARALIND، والذي يُعَدّ طريقة فعّالة لتمثيل التفاعل الثلاثي الخطي بين المدخلات الثلاثة. علاوةً على ذلك، تم تطبيق تقنية تبادل المعرفة (Knowledge Distillation) لأول مرة في مهام VQA المفتوحة الحرة (Free-form Open-ended VQA). ولا تقتصر فائدتها على تقليل التكلفة الحسابية والذاكرة المطلوبة، بل تمتد أيضًا إلى نقل المعرفة من النموذج ثلاثي التفاعل إلى نموذج ثنائي التفاعل. وقد أظهرت التجارب الواسعة على مجموعات بيانات المعيار TDIUC وVQA-2.0 وVisual7W أن النموذج الثلاثي الخطي المدمج المقترح يحقق نتائج متميزة على مستوى الحد الأقصى (state-of-the-art) عند استخدام نموذج واحد على جميع هذه المجموعات الثلاث.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التفاعل الثلاثي المكثف للإجابة على الأسئلة البصرية | مستندات | HyperAI