HyperAIHyperAI
منذ 17 أيام

الإجابة على الأسئلة البصرية بدون تدريب مسبق باستخدام الرسم المعرفي

Zhuo Chen, Jiaoyan Chen, Yuxia Geng, Jeff Z. Pan, Zonggang Yuan, Huajun Chen
الإجابة على الأسئلة البصرية بدون تدريب مسبق باستخدام الرسم المعرفي
الملخص

إدماج المعرفة الخارجية في الإجابة على الأسئلة المرئية (VQA) أصبح حاجة عملية حيوية. تعتمد الطرق الحالية بشكل رئيسي على النماذج المتسلسلة (pipeline) التي تتضمن مكونات مختلفة للتوافق مع المعرفة واستخلاصها، وتعلم الميزات، إلخ. ومع ذلك، تعاني هذه النماذج المتسلسلة عندما لا تؤدي أحد المكونات بشكل جيد، مما يؤدي إلى انتشار الأخطاء وانخفاض الأداء العام. علاوة على ذلك، يتجاهل معظم الطرق الحالية مشكلة التحيّز في الإجابات — ففي التطبيقات الواقعية، قد لا تظهر العديد من الإجابات أبدًا أثناء التدريب (أي إجابات غير مرئية). لسد هذه الفجوات، نقترح في هذه الورقة خوارزمية إجابة على الأسئلة المرئية بدون تدريب مسبق (Zero-shot VQA) تعتمد على رسوم المعرفة (knowledge graphs) وآلية تعلم قائمة على التغطية (mask-based learning) لتحسين إدماج المعرفة الخارجية، ونقدّم تقسيمات جديدة قائمة على الإجابات لاختبار الإجابة بدون تدريب مسبق على مجموعة بيانات F-VQA. تُظهر التجارب أن طريقة我们的 يمكن أن تحقق أداءً من الدرجة الأولى في مهام الإجابة بدون تدريب مسبق مع إجابات غير مرئية، وفي الوقت نفسه تُعزز بشكل كبير النماذج النهائية المتكاملة الحالية في المهمة العادية لـ F-VQA.

الإجابة على الأسئلة البصرية بدون تدريب مسبق باستخدام الرسم المعرفي | أحدث الأوراق البحثية | HyperAI