Command Palette
Search for a command to run...
الوصول إلى التكافؤ البشري في الإجابة على الأسئلة البصرية
الوصول إلى التكافؤ البشري في الإجابة على الأسئلة البصرية
الملخص
يُعدّ مُهمّة الإجابة على الأسئلة البصرية (VQA) استخدامًا متكاملًا للتحليل البصري والتحليل اللغوي للإجابة على سؤال نصي متعلق بصورة مرئية. وقد أصبحت هذه المهمة موضوعًا شائعًا للبحث، مع تزايد تطبيقاتها الواقعية في العقد الماضي. تصف هذه الورقة بحثنا الأخير حول نموذج AliceMind-MMU (مجموعة مُشفّرات-مُفكّكات من مختبر الذكاء الاصطناعي في معهد دامو - فهم الوسائط المتعددة)، الذي يحقق نتائج مماثلة أو حتى أفضل قليلاً من الأداء البشري في مهام الإجابة على الأسئلة البصرية. تم تحقيق ذلك من خلال تحسين منهجي لسلسلة معالجة VQA، تشمل: (1) التدريب المسبق باستخدام تمثيل شامل للخصائص البصرية والنصية؛ (2) التفاعل الفعّال بين الوسائط المختلفة من خلال تعلّم الانتباه؛ و(3) إطار جديد لاستخراج المعرفة يعتمد على وحدات خبرة متخصصة لمعالجة المهام المعقدة في VQA. ويُعدّ معالجة أنواع مختلفة من الأسئلة البصرية بحسب الخبرة المطلوبة لها عنصراً حاسماً في رفع أداء هيكلنا المُصمم للإجابة على الأسئلة البصرية إلى مستوى الإنسان. وقد أُجريت مجموعة واسعة من التجارب والتحليلات لتوضيح فعالية هذا العمل البحثي الجديد.