HyperAIHyperAI
منذ 2 أشهر

التمثيل البصري-الدلالاتي متعدد المعاني للبحث عبر الأنظمة الحسية

Yale Song; Mohammad Soleymani
التمثيل البصري-الدلالاتي متعدد المعاني للبحث عبر الأنظمة الحسية
الملخص

الغرض من التضمين البصري-الدلالاتي هو العثور على مساحة خفية مشتركة حيث تكون النماذج البصرية والنصية ذات الصلة قريبة من بعضها البعض. تتعلم معظم الأساليب الحالية دوال تضمين متباينة تقوم بربط نموذج بنقطة واحدة في المساحة المشتركة. للأسف، لا يمكن للتضمين المتباين التعامل بشكل فعال مع النماذج المتعددة المعاني التي لديها معانٍ محتملة متعددة؛ في أفضل الأحوال، سيعثر على تمثيل متوسط للمعاني المختلفة. هذا يعيق استخدامه في السيناريوهات الواقعية حيث تكون النماذج الفردية وعلاقاتها بين الأشكال غالباً غير واضحة. في هذا البحث، نقدم شبكات التضمين المتعدد المعاني (PIE-Nets) التي تحسب تمثيلات متعددة ومتنوعة لنموذج عن طريق الجمع بين السياق العالمي والميزات الموجهة محلياً عبر انتباه ذاتي متعدد الرؤوس والتعلم الباقي. لتعلم التضمين البصري-الدلالاتي، نربط شبكتين من PIE-Nets ونقوم بتحسينهما بشكل مشترك في إطار التعلم متعدد النماذج. تركز معظم الأعمال الحالية المتعلقة بالاسترجاع بين الأشكال على بيانات الصورة-النص. هنا، نتعامل أيضاً مع حالة أكثر تحدياً وهي استرجاع الفيديو-النص. لتسهيل المزيد من الأبحاث في مجال استرجاع الفيديو-النص، نطلق مجموعة بيانات جديدة تتكون من 50 ألف زوج من مقاطع الفيديو والجمل تم جمعها من مواقع التواصل الاجتماعي، والتي أطلقنا عليها اسم MRW (my reaction when). نوضح نهجنا في سيناريوات الاسترجاع بين الصورة-النص والفيديو-النص باستخدام قاعدة بيانات MS-COCO و TGIF وجديدة MRW الخاصة بنا.

التمثيل البصري-الدلالاتي متعدد المعاني للبحث عبر الأنظمة الحسية | أحدث الأوراق البحثية | HyperAI