HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم المتعدد الأوضاع للأسئلة البصرية وإجاباتها

Jin-Hwa Kim Sang-Woo Lee Dong-Hyun Kwak Min-Oh Heo Jeonghee Kim Jung-Woo Ha Byoung-Tak Zhang

الملخص

تواصل الشبكات العصبية العميقة تحسين مستوى التقنيات المتقدمة في مهام التعرف على الصور باستخدام مجموعة متنوعة من الطرق. ومع ذلك، فإن تطبيقات هذه الطرق على البيانات متعددة الوسائط لا تزال محدودة. نقدم شبكات البقايا متعددة الوسائط (Multimodal Residual Networks - MRN) للتعلم المتبقي متعدد الوسائط في إجابة الأسئلة المرئية، والتي تمتد فكرة التعلم المتبقي العميق. بخلاف التعلم المتبقي العميق، تعمل MRN على تعلم التمثيل المشترك بكفاءة من المعلومات البصرية واللغوية. الفكرة الرئيسية هي استخدام الضرب العنصري لخرائط البقايا المشتركة مع استغلال التعلم المتبقي للنماذج الانتباهية في الدراسات الحديثة. يتم استكشاف مجموعة متنوعة من النماذج البديلة التي تم تقديمها بواسطة البيانات متعددة الوسائط بناءً على دراستنا. نحقق أفضل النتائج الحالية في مجموعة بيانات Visual QA لكل من المهام ذات الإجابات المفتوحة والمهمات ذات الخيارات المتعددة. بالإضافة إلى ذلك، نقدم طريقة جديدة لتصور تأثير الانتباه للتمثيلات المشتركة لكل كتلة تعلم باستخدام خوارزمية الرجوع الخلفي (back-propagation algorithm)، حتى وإن كانت الخصائص البصرية مشتتة دون معلومات فضائية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم المتعدد الأوضاع للأسئلة البصرية وإجاباتها | مستندات | HyperAI