Command Palette
Search for a command to run...
NAPReg: تحسين الأسماء كممثلات لدمج متعدد الوسائط واعٍ معنويًا
NAPReg: تحسين الأسماء كممثلات لدمج متعدد الوسائط واعٍ معنويًا
Venu Govindaraju Srirangaraj Setlur Naji Mohamed Ali Deen Dayal Mohan Bhavin Jawade
الملخص
الاسترجاع عبر الوسائط هو مهمة أساسية في مجال الرؤية الحاسوبية واللغة، وله تطبيقات عملية واسعة النطاق. يُعدّ تطابق النص مع الصورة الشكل الأكثر شيوعًا في الاسترجاع عبر الوسائط، حيث يُعطى قاعدة بيانات ضخمة من الصور واستعلام نصي، والهدف هو استرجاع مجموعة الصور الأكثر صلة. تستخدم الطرق الحالية مُشفّرات مزدوجة مدعومة بآلية الانتباه ووظيفة خسارة الترتيب لتعلم تمثيلات (Embeddings) يمكن استخدامها في الاسترجاع بناءً على التشابه الجيبي (Cosine Similarity). وعلى الرغم من أن هذه الطرق تحاول تحقيق التوافق الدلالي بين المناطق البصرية والكلمات النصية باستخدام آليات انتباه مُصممة خصيصًا، إلا أنه لا يوجد توجيه صريح من الهدف التدريبي لفرض هذا التوافق. ولحل هذه المشكلة، نقترح NAPReg، وهي صيغة تنظيم جديدة تقوم بتصدير الكيانات الدلالية عالية المستوى، أي الأسماء (Nouns)، إلى فضاء التمثيل كـ"وكلاء قابلين للتعلم مشتركين". نُظهر أن استخدام هذه الصيغة يُمكّن آلية الانتباه من تعلّم تطابق أفضل بين الكلمات والمناطق، وفي الوقت نفسه يُستخدم معلومات المنطقة من أمثلة أخرى لبناء تمثيل خفي أكثر تعميمًا للمفاهيم الدلالية. أظهرت التجارب على ثلاث مجموعات معيارية للبيانات، وهي MS-COCO وFlickr30k وFlickr8k، أن طريقة العمل الخاصة بنا تحقق نتائج من الدرجة الأولى في التعلم القياسي عبر الوسائط في مهام استرجاع النص-الصورة والصورة-النص. الرمز البرمجي: https://github.com/bhavinjawade/NAPReq