HyperAIHyperAI
منذ 2 أشهر

BiCro: تصحيح المراسلات الضوضائية للبيانات متعددة الوسائط من خلال التوافق الثنائي في التشابه بين الوسائط

Yang, Shuo ; Xu, Zhaopan ; Wang, Kai ; You, Yang ; Yao, Hongxun ; Liu, Tongliang ; Xu, Min
BiCro: تصحيح المراسلات الضوضائية للبيانات متعددة الوسائط من خلال التوافق الثنائي في التشابه بين الوسائط
الملخص

بصفتها واحدة من التقنيات الأساسية في التعلم متعدد الوسائط، تهدف المطابقة بين الوسائط إلى إسقاط مختلف الحواس في فضاء خصائص مشترك. لتحقيق هذا الهدف، يتطلب تدريب النموذج بيانات متطابقة بشكل صحيح وبكميات ضخمة. ومع ذلك، على عكس مجموعات البيانات الأحادية الوسائط، فإن جمع وتصنيف مجموعات البيانات متعددة الوسائط بدقة يعد أمرًا صعبًا للغاية. كحل بديل، تم استغلال أزواج البيانات المشتركة (مثل أزواج الصور والنصوص) التي تم جمعها من الإنترنت على نطاق واسع في هذا المجال. للأسف، تحتوي المجموعة的数据集不可避免地包含许多不匹配的数据对,这已被证明会对模型的性能产生不利影响。为了解决这一问题,我们提出了一种称为BiCro(双向跨模态相似性一致性)的通用框架,该框架可以轻松集成到现有的跨模态匹配模型中,并提高它们对噪声数据的鲁棒性。具体来说,BiCro旨在为噪声数据对估计软标签,以反映它们的真实对应程度。BiCro的基本思想受到以下启发——以图像-文本匹配为例——相似的图像应该有相似的文本描述,反之亦然。然后,这两种相似性的一致性可以重新表述为估计的软标签来训练匹配模型。在三个流行的跨模态匹配数据集上的实验表明,我们的方法显著提高了各种匹配模型的抗噪能力,并且明显超过了最先进的方法。为了使翻译更加符合阿拉伯语的习惯和表达方式,以下是优化后的版本:كإحدى التقنيات الأساسية في التعلم متعدد الوسائط، تهدف المطابقة بين الوسائط إلى إسقاط أنماط مختلفة من الحواس في فضاء خصائص مشترك. لتحقيق هذا الهدف، يتطلب تدريب النموذج أزواج بيانات متطابقة بشكل صحيح وبكميات كبيرة. ومع ذلك، على عكس مجموعات البيانات الأحادية الوسائط، فإن جمع وتصنيف مجموعات البيانات متعددة الوسائط بدقة يعد أمرًا صعبًا للغاية. كحل بديل، تم استخدام أزواج البيانات المشتركة (مثل أزواج الصورة والنص) التي تم جمعها من الإنترنت على نطاق واسع في هذا المجال. للأسف، فإن مجموعة البيانات التي تم جمعها بتكلفة قليلة تحتوي حتماً على العديد من أزواج البيانات غير المتطابقة، والتي ثبت أنها ضارة بأداء النموذج.لمعالجة هذه المشكلة، نقترح إطارًا عامًا يُسمى BiCro (المتساقطية الثنائية للتشابه عبر الوسائط)، يمكن دمجه بسهولة في النماذج الحالية للمطابقة بين الوسائط وتحسين مقاومتها للبيانات الضوضائية. تحديداً، يسعى BiCro إلى تقدير العلامات اللينة لأزواج البيانات الضوضائية لتعكس درجة التطابق الحقيقية بينها. الفكرة الأساسية لـ BiCro مستوحاة من أن — باعتبار المثال هو المطابقة بين الصورة والنص — الصور المشابهة يجب أن تكون لديها وصف نصي مشابه والعكس صحيح أيضاً. ثم يمكن إعادة صياغة توافق هذين النوعين من التشابه كعلامات لينة تقديرية لتدريب نموذج المطابقة.التجارب التي أجريت على ثلاث مجموعات بيانات شهيرة للمطابقة بين الوسائط أثبتت أن طريقتنا تحسن بشكل كبير مقاومة مختلف النماذج للمatching للضوضاء وتتفوق بفارق واضح على أفضل الأساليب المتاحة حالياً (state-of-the-art).

BiCro: تصحيح المراسلات الضوضائية للبيانات متعددة الوسائط من خلال التوافق الثنائي في التشابه بين الوسائط | أحدث الأوراق البحثية | HyperAI