HyperAIHyperAI
منذ 15 أيام

التعلم العميق للتصور عبر الوسائط المتعددة للتوافق بين الصورة والنص

{Huchuan Lu, Ying Zhang}
التعلم العميق للتصور عبر الوسائط المتعددة للتوافق بين الصورة والنص
الملخص

النقطة الأساسية في مطابقة الصورة والنص تكمن في كيفية قياس التشابه الدقيق بين المدخلات البصرية والنصية. وعلى الرغم من التقدم الكبير في ربط التضمينات العميقة عبر الوسائط باستخدام خسارة الترتيب ثنائي الاتجاه، فإن تطوير استراتيجيات لاستخراج الثلاثيات المفيدة واختيار الحدود المناسبة يظل تحديًا في التطبيقات الحقيقية. في هذه الورقة، نقترح خسارة مطابقة التصوير عبر الوسائط (CMPM) وخسارة تصنيف التصوير عبر الوسائط (CMPC) لتعلم تضمينات صورة-نص تمييزية. تقلل خسارة CMPM التباين كولب-ليبلر بين توزيعات التوافق في التصوير وتوافق التوزيعات المُعدّلة المحددة باستخدام جميع العينات الموجبة والسالبة في دفعة صغيرة. أما خسارة CMPC، فهي تحاول تصنيف متجهات التصوير للتمثيلات من وسيلة واحدة إلى وسيلة أخرى باستخدام خسارة النورم-سُوفت ماكس المحسّنة، بهدف تعزيز كثافة الميزات لكل فئة. وقد أظهرت التحليلات والتجارب الواسعة على عدة مجموعات بيانات تفوق النهج المقترح.

التعلم العميق للتصور عبر الوسائط المتعددة للتوافق بين الصورة والنص | أحدث الأوراق البحثية | HyperAI