HyperAIHyperAI

Command Palette

Search for a command to run...

لاكو: إجابة موجهة بالسؤال البصري القائمة على المعرفة من خلال حقن المعرفة إلى النص في المرحلة الأخيرة

Zhuo Chen Yufeng Huang Jiaoyan Chen Yuxia Geng Yin Fang Jeff Pan Ningyu Zhang Wen Zhang

الملخص

إجابة باللغة العربية:يُعدّ التساؤل البصري (VQA) غالبًا ما يتطلب فهمًا للمفاهيم البصرية والمعاني اللغوية، وهو ما يعتمد على معرفة خارجية. تعتمد معظم الطرق الحالية على نماذج لغوية مُدرّبة مسبقًا أو/ونصوص غير منظمة، لكن المعرفة المتوفرة في هذه المصادر غالبًا ما تكون غير كاملة ومشوّشة. أما بعض الطرق الأخرى فتفضّل استخدام الرسوم المعرفية (KGs)، التي تحتوي عادةً على معرفة منظمة بشكل مكثف، إلا أن البحث في هذا المجال لا يزال في مراحله الأولية. في هذه الورقة، نقترح طريقة تُدعى LaKo، وهي طريقة قائمة على المعرفة لحل التساؤل البصري من خلال دمج المعرفة في مرحلة متأخرة (Late Knowledge-to-text Injection). لدمج معرفة خارجية بشكل فعّال، نقوم بتحويل الأزواج الثلاثية (triples) إلى صيغة نصية، ونُقدّم آلية دمج معرفة متأخرة. وأخيرًا، نعالج مسألة التساؤل البصري كمهمة توليد نصي باستخدام نموذج مُشفّر-مُفكّك فعّال، والذي حقق نتائج متميزة على مجموعة بيانات OKVQA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp