Command Palette
Search for a command to run...
التعلم العميق للتصور عبر الوسائط المتعددة للتوافق بين الصورة والنص
التعلم العميق للتصور عبر الوسائط المتعددة للتوافق بين الصورة والنص
Huchuan Lu Ying Zhang
الملخص
النقطة الأساسية في مطابقة الصورة والنص تكمن في كيفية قياس التشابه الدقيق بين المدخلات البصرية والنصية. وعلى الرغم من التقدم الكبير في ربط التضمينات العميقة عبر الوسائط باستخدام خسارة الترتيب ثنائي الاتجاه، فإن تطوير استراتيجيات لاستخراج الثلاثيات المفيدة واختيار الحدود المناسبة يظل تحديًا في التطبيقات الحقيقية. في هذه الورقة، نقترح خسارة مطابقة التصوير عبر الوسائط (CMPM) وخسارة تصنيف التصوير عبر الوسائط (CMPC) لتعلم تضمينات صورة-نص تمييزية. تقلل خسارة CMPM التباين كولب-ليبلر بين توزيعات التوافق في التصوير وتوافق التوزيعات المُعدّلة المحددة باستخدام جميع العينات الموجبة والسالبة في دفعة صغيرة. أما خسارة CMPC، فهي تحاول تصنيف متجهات التصوير للتمثيلات من وسيلة واحدة إلى وسيلة أخرى باستخدام خسارة النورم-سُوفت ماكس المحسّنة، بهدف تعزيز كثافة الميزات لكل فئة. وقد أظهرت التحليلات والتجارب الواسعة على عدة مجموعات بيانات تفوق النهج المقترح.