HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

الاسترجاع عبر الوسائط مع التوافق الضوضائي من خلال تحسين الاتساق واستكشافه

{Xi Peng Jiancheng Lv Peng Hu Yunfan Li Mouxing Yang Xinran Ma}

الملخص

ينجذب نجاح الطرق الحالية لاسترجاع البيانات عبر الوسائط (CMR) بشكل كبير إلى افتراض أن التقابل المُعلَّم بين الوسائط خالٍ من الأخطاء. ومع ذلك، في الواقع، فإن تقابل بعض الأزواج يصبح بالضرورة ملوثًا أثناء جمع البيانات أو التصنيف، مما يؤدي إلى ما يُعرف بمشكلة التقابل الضوضائي (NC). ولتخفيف تأثير هذه المشكلة، نقترح طريقة جديدة تُسمى "تحسين وتعزيز الاتساق" (CREAM)، من خلال الكشف عن الفرق بين التقابل والاتساق، واستغلال هذا الفرق. بشكل محدد، يتطابق التقابل مع الاتساق فقط في الأزواج الصحيحة الموجبة (true positive) والصحيحة السالبة (true negative)، بينما يختلفان في الأزواج الخاطئة الموجبة (false positive) والخاطئة السالبة (false negative). استنادًا إلى هذه الملاحظة، تستخدم CREAM نموذج تعلم تعاوني للكشف عن التقابل في الأزواج الموجبة وتصحيحه، بالإضافة إلى استخدام منهجية استخراج الأزواج السلبية لاستكشاف واستغلال الاتساق. وبفضل استراتيجية تحسين وتعزيز الاتساق في CREAM، يمكن منع التعلم الزائد (overfitting) على الأزواج الخاطئة الموجبة، وتمكين الاستفادة من الاتساق المُخفي في الأزواج الخاطئة السالبة، مما يؤدي إلى منهج قوي لاسترجاع البيانات عبر الوسائط. وقد أثبتت التجارب الواسعة فعالية طريقتنا على ثلاث معايير صور-نص، تشمل Flickr30K وMS-COCO وConceptual Captions. علاوةً على ذلك، قمنا بتطبيق طريقتنا على مهمة تطابق الرسوم البيانية (graph matching)، وأظهرت النتائج قدرة طريقتنا على التحمل أمام مشكلة التقابل الضوضائي الدقيقة. يمكن الوصول إلى الشيفرة المصدرية عبر الرابط: https://github.com/XLearning-SCU/2024-TIP-CREAM.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
cross-modal-retrieval-with-noisy-1CREAM
Image-to-text R@1: 40.3
Image-to-text R@10: 77.1
Image-to-text R@5: 68.5
R-Sum: 372.6
Text-to-image R@1: 40.2
Text-to-image R@10: 78.3
Text-to-image R@5: 68.2
cross-modal-retrieval-with-noisy-2CREAM
Image-to-text R@1: 77.4
Image-to-text R@10: 97.3
Image-to-text R@5: 95.0
R-Sum: 502.3
Text-to-image R@1: 58.7
Text-to-image R@10: 89.8
Text-to-image R@5: 84.1
cross-modal-retrieval-with-noisy-3CREAM
Image-to-text R@1: 78.9
Image-to-text R@10: 98.6
Image-to-text R@5: 96.3
R-Sum: 523
Text-to-image R@1: 63.3
Text-to-image R@10: 95.8
Text-to-image R@5: 90.1
graph-matching-on-pascal-vocCREAM
matching accuracy: 0.814
graph-matching-on-spair-71kCREAM
matching accuracy: 0.851
graph-matching-on-willow-object-classCREAM
matching accuracy: 0.988

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاسترجاع عبر الوسائط مع التوافق الضوضائي من خلال تحسين الاتساق واستكشافه | الأوراق البحثية | HyperAI