HyperAIHyperAI

Command Palette

Search for a command to run...

NAPReg: تحسين الأسماء كممثلات لدمج متعدد الوسائط واعٍ معنويًا

Venu Govindaraju Srirangaraj Setlur Naji Mohamed Ali Deen Dayal Mohan Bhavin Jawade

الملخص

الاسترجاع عبر الوسائط هو مهمة أساسية في مجال الرؤية الحاسوبية واللغة، وله تطبيقات عملية واسعة النطاق. يُعدّ تطابق النص مع الصورة الشكل الأكثر شيوعًا في الاسترجاع عبر الوسائط، حيث يُعطى قاعدة بيانات ضخمة من الصور واستعلام نصي، والهدف هو استرجاع مجموعة الصور الأكثر صلة. تستخدم الطرق الحالية مُشفّرات مزدوجة مدعومة بآلية الانتباه ووظيفة خسارة الترتيب لتعلم تمثيلات (Embeddings) يمكن استخدامها في الاسترجاع بناءً على التشابه الجيبي (Cosine Similarity). وعلى الرغم من أن هذه الطرق تحاول تحقيق التوافق الدلالي بين المناطق البصرية والكلمات النصية باستخدام آليات انتباه مُصممة خصيصًا، إلا أنه لا يوجد توجيه صريح من الهدف التدريبي لفرض هذا التوافق. ولحل هذه المشكلة، نقترح NAPReg، وهي صيغة تنظيم جديدة تقوم بتصدير الكيانات الدلالية عالية المستوى، أي الأسماء (Nouns)، إلى فضاء التمثيل كـ"وكلاء قابلين للتعلم مشتركين". نُظهر أن استخدام هذه الصيغة يُمكّن آلية الانتباه من تعلّم تطابق أفضل بين الكلمات والمناطق، وفي الوقت نفسه يُستخدم معلومات المنطقة من أمثلة أخرى لبناء تمثيل خفي أكثر تعميمًا للمفاهيم الدلالية. أظهرت التجارب على ثلاث مجموعات معيارية للبيانات، وهي MS-COCO وFlickr30k وFlickr8k، أن طريقة العمل الخاصة بنا تحقق نتائج من الدرجة الأولى في التعلم القياسي عبر الوسائط في مهام استرجاع النص-الصورة والصورة-النص. الرمز البرمجي: https://github.com/bhavinjawade/NAPReq


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp