HyperAIHyperAI

Command Palette

Search for a command to run...

BiCro: تصحيح المراسلات الضوضائية للبيانات متعددة الوسائط من خلال التوافق الثنائي في التشابه بين الوسائط

Yang Shuo ; Xu Zhaopan ; Wang Kai ; You Yang ; Yao Hongxun ; Liu Tongliang ; Xu Min

الملخص

بصفتها واحدة من التقنيات الأساسية في التعلم متعدد الوسائط، تهدف المطابقة بين الوسائط إلى إسقاط مختلف الحواس في فضاء خصائص مشترك. لتحقيق هذا الهدف، يتطلب تدريب النموذج بيانات متطابقة بشكل صحيح وبكميات ضخمة. ومع ذلك، على عكس مجموعات البيانات الأحادية الوسائط، فإن جمع وتصنيف مجموعات البيانات متعددة الوسائط بدقة يعد أمرًا صعبًا للغاية. كحل بديل، تم استغلال أزواج البيانات المشتركة (مثل أزواج الصور والنصوص) التي تم جمعها من الإنترنت على نطاق واسع في هذا المجال. للأسف، تحتوي المجموعة的数据集不可避免地包含许多不匹配的数据对,这已被证明会对模型的性能产生不利影响。为了解决这一问题,我们提出了一种称为BiCro(双向跨模态相似性一致性)的通用框架,该框架可以轻松集成到现有的跨模态匹配模型中,并提高它们对噪声数据的鲁棒性。具体来说,BiCro旨在为噪声数据对估计软标签,以反映它们的真实对应程度。BiCro的基本思想受到以下启发——以图像-文本匹配为例——相似的图像应该有相似的文本描述,反之亦然。然后,这两种相似性的一致性可以重新表述为估计的软标签来训练匹配模型。在三个流行的跨模态匹配数据集上的实验表明,我们的方法显著提高了各种匹配模型的抗噪能力,并且明显超过了最先进的方法。为了使翻译更加符合阿拉伯语的习惯和表达方式,以下是优化后的版本:كإحدى التقنيات الأساسية في التعلم متعدد الوسائط، تهدف المطابقة بين الوسائط إلى إسقاط أنماط مختلفة من الحواس في فضاء خصائص مشترك. لتحقيق هذا الهدف، يتطلب تدريب النموذج أزواج بيانات متطابقة بشكل صحيح وبكميات كبيرة. ومع ذلك، على عكس مجموعات البيانات الأحادية الوسائط، فإن جمع وتصنيف مجموعات البيانات متعددة الوسائط بدقة يعد أمرًا صعبًا للغاية. كحل بديل، تم استخدام أزواج البيانات المشتركة (مثل أزواج الصورة والنص) التي تم جمعها من الإنترنت على نطاق واسع في هذا المجال. للأسف، فإن مجموعة البيانات التي تم جمعها بتكلفة قليلة تحتوي حتماً على العديد من أزواج البيانات غير المتطابقة، والتي ثبت أنها ضارة بأداء النموذج.لمعالجة هذه المشكلة، نقترح إطارًا عامًا يُسمى BiCro (المتساقطية الثنائية للتشابه عبر الوسائط)، يمكن دمجه بسهولة في النماذج الحالية للمطابقة بين الوسائط وتحسين مقاومتها للبيانات الضوضائية. تحديداً، يسعى BiCro إلى تقدير العلامات اللينة لأزواج البيانات الضوضائية لتعكس درجة التطابق الحقيقية بينها. الفكرة الأساسية لـ BiCro مستوحاة من أن — باعتبار المثال هو المطابقة بين الصورة والنص — الصور المشابهة يجب أن تكون لديها وصف نصي مشابه والعكس صحيح أيضاً. ثم يمكن إعادة صياغة توافق هذين النوعين من التشابه كعلامات لينة تقديرية لتدريب نموذج المطابقة.التجارب التي أجريت على ثلاث مجموعات بيانات شهيرة للمطابقة بين الوسائط أثبتت أن طريقتنا تحسن بشكل كبير مقاومة مختلف النماذج للمatching للضوضاء وتتفوق بفارق واضح على أفضل الأساليب المتاحة حالياً (state-of-the-art).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp