لاكو: إجابة موجهة بالسؤال البصري القائمة على المعرفة من خلال حقن المعرفة إلى النص في المرحلة الأخيرة

إجابة باللغة العربية:يُعدّ التساؤل البصري (VQA) غالبًا ما يتطلب فهمًا للمفاهيم البصرية والمعاني اللغوية، وهو ما يعتمد على معرفة خارجية. تعتمد معظم الطرق الحالية على نماذج لغوية مُدرّبة مسبقًا أو/ونصوص غير منظمة، لكن المعرفة المتوفرة في هذه المصادر غالبًا ما تكون غير كاملة ومشوّشة. أما بعض الطرق الأخرى فتفضّل استخدام الرسوم المعرفية (KGs)، التي تحتوي عادةً على معرفة منظمة بشكل مكثف، إلا أن البحث في هذا المجال لا يزال في مراحله الأولية. في هذه الورقة، نقترح طريقة تُدعى LaKo، وهي طريقة قائمة على المعرفة لحل التساؤل البصري من خلال دمج المعرفة في مرحلة متأخرة (Late Knowledge-to-text Injection). لدمج معرفة خارجية بشكل فعّال، نقوم بتحويل الأزواج الثلاثية (triples) إلى صيغة نصية، ونُقدّم آلية دمج معرفة متأخرة. وأخيرًا، نعالج مسألة التساؤل البصري كمهمة توليد نصي باستخدام نموذج مُشفّر-مُفكّك فعّال، والذي حقق نتائج متميزة على مجموعة بيانات OKVQA.