منذ 4 أشهر

التعلم الدليلي العميق مع المرافقة الضوضائية لاسترجاع عبر الوسائط

{Peng Hu Xu Wang Xi Peng Dezhong Peng Yang Qin}

الملخص

تمثّل الاسترجاع عبر الوسائط (Cross-modal retrieval) موضوعًا جذّابًا في المجتمع المتعدد الوسائط. في الآونة الأخيرة، وبهدف تقليل التكلفة العالية لجمع البيانات، أصبح من الممكن جمع أزواج مترافقة (مثل الصور والنصوص) من الإنترنت لتكوين مجموعة بيانات عبر وسائط كبيرة الحجم، مثل مجموعات بيانات Conceptual Captions. ومع ذلك، فإن هذا النهج سيؤدي بالضرورة إلى إدخال ضوضاء (أي أزواج غير متطابقة) إلى بيانات التدريب، ويُعرف هذا النوع من الضوضاء بـ "التوافق الضوضائي" (noisy correspondence). من غير الممكن التنازل عن حقيقة أن هذه الضوضاء تجعل معلومات الإشراف غير موثوقة أو غير مؤكدة، مما يؤدي إلى تدهور كبير في الأداء. علاوةً على ذلك، تركز معظم الطرق الحالية على التدريب على السلبيات الصعبة (hard negatives)، وهي ما يُضاعف من عدم موثوقية الضوضاء. ولحل هذه المشكلات، نقترح إطارًا عامًا لتعلم عميق عبر الوسائط يُدعى DECL (Generalized Deep Evidential Cross-modal Learning)، والذي يدمج منهجية جديدة تُسمى التعلم بالدليل عبر الوسائط (Cross-modal Evidential Learning - CEL) ووظيفة خسارة ديناميكية مقاومة (Robust Dynamic Hinge loss - RDH) مع التعلم الإيجابي والسلبي. تُمكّن CEL من اكتشاف وتَعلُّم عدم اليقين الناتج عن الضوضاء، مما يعزز موثوقية وثبات الاسترجاع عبر الوسائط. وبشكل محدد، يتم أولًا نمذجة وتمثيل الأدلة الثنائية (bidirectional evidence) القائمة على التشابه عبر الوسائط، ثم تعميمها باستخدام التوزيع ديريشليه (Dirichlet distribution)، مما يوفر تقديرًا دقيقًا لمستوى عدم اليقين، ويمنح النموذج مقاومة فعّالة أمام التغيرات الناتجة عن التوافق الضوضائي. ولمعالجة مشكلة التضخيم، تُحسّن RDH بشكل سلس من صعوبة السلبيات المركّزة، مما يعزز من مقاومة النموذج للضوضاء العالية. أُجريت تجارب واسعة على ثلاث مجموعات بيانات معيارية للصورة والنص، وهي Flickr30K وMS-COCO وConceptual Captions، للتحقق من فعالية وكفاءة الطريقة المقترحة. يمكن الوصول إلى الشيفرة المصدرية عبر الرابط: https://github.com/QinYang79/DECL.

المعايير القياسية

معيار قياسي	المنهجية	المقاييس
cross-modal-retrieval-with-noisy-1	DECL-SGRAF	Image-to-text R@1: 39.0 Image-to-text R@10: 75.5 Image-to-text R@5: 66.1 R-Sum: 364.3 Text-to-image R@1: 40.7 Text-to-image R@10: 76.7 Text-to-image R@5: 66.3
cross-modal-retrieval-with-noisy-2	DECL-SGRAF	Image-to-text R@1: 77.5 Image-to-text R@10: 97.0 Image-to-text R@5: 93.8 R-Sum: 494.7 Text-to-image R@1: 56.1 Text-to-image R@10: 88.5 Text-to-image R@5: 81.8
cross-modal-retrieval-with-noisy-3	DECL-SGARF	Image-to-text R@1: 77.5 Image-to-text R@10: 98.4 Image-to-text R@5: 95.9 R-Sum: 518.2 Text-to-image R@1: 61.7 Text-to-image R@10: 95.4 Text-to-image R@5: 89.3
text-based-person-retrieval-with-noisy	DECL	Rank 10: 91.93 Rank-1: 70.29 Rank-5: 87.04 mAP: 62.84 mINP: 46.54
text-based-person-retrieval-with-noisy-1	DECL	Rank 1: 61.95 Rank-10: 83.88 Rank-5: 78.36 mAP: 36.08 mINP: 6.25
text-based-person-retrieval-with-noisy-2	DECL	Rank 1: 61.75 Rank 10: 86.90 Rank 5: 80.70 mAP: 47.70 mINP: 26.07

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp