HyperAIHyperAI

Command Palette

Search for a command to run...

الوصول إلى التكافؤ البشري في الإجابة على الأسئلة البصرية

الملخص

يُعدّ مُهمّة الإجابة على الأسئلة البصرية (VQA) استخدامًا متكاملًا للتحليل البصري والتحليل اللغوي للإجابة على سؤال نصي متعلق بصورة مرئية. وقد أصبحت هذه المهمة موضوعًا شائعًا للبحث، مع تزايد تطبيقاتها الواقعية في العقد الماضي. تصف هذه الورقة بحثنا الأخير حول نموذج AliceMind-MMU (مجموعة مُشفّرات-مُفكّكات من مختبر الذكاء الاصطناعي في معهد دامو - فهم الوسائط المتعددة)، الذي يحقق نتائج مماثلة أو حتى أفضل قليلاً من الأداء البشري في مهام الإجابة على الأسئلة البصرية. تم تحقيق ذلك من خلال تحسين منهجي لسلسلة معالجة VQA، تشمل: (1) التدريب المسبق باستخدام تمثيل شامل للخصائص البصرية والنصية؛ (2) التفاعل الفعّال بين الوسائط المختلفة من خلال تعلّم الانتباه؛ و(3) إطار جديد لاستخراج المعرفة يعتمد على وحدات خبرة متخصصة لمعالجة المهام المعقدة في VQA. ويُعدّ معالجة أنواع مختلفة من الأسئلة البصرية بحسب الخبرة المطلوبة لها عنصراً حاسماً في رفع أداء هيكلنا المُصمم للإجابة على الأسئلة البصرية إلى مستوى الإنسان. وقد أُجريت مجموعة واسعة من التجارب والتحليلات لتوضيح فعالية هذا العمل البحثي الجديد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp