HyperAIHyperAI
منذ 15 أيام

تحليل خسائر التعلم العميق للقياسات في استرجاع الصور والنصوص

Hong Xuan, Xi Chen
تحليل خسائر التعلم العميق للقياسات في استرجاع الصور والنصوص
الملخص

تُعدّ التضمين البصري-الدلالِي (VSE) من الأساليب الشائعة في استرجاع الصور والنصوص من خلال تعلُّم فضاء تضمين مشترك بين الوسائط البصرية واللغوية، حيث يتم الحفاظ على التشابه الدلالي. أصبحت دالة الخسارة الثلاثية مع استخراج السلبيات الصعبة (hard-negative mining) الهدف الافتراضي لمعظم الأساليب المستخدمة في VSE. مستوحاة من التقدم الأخير في التعلُّم القياسي العميق (DML) ضمن المجال البصري، والذي أدى إلى ظهور دوال خسارة جديدة تفوق دالة الخسارة الثلاثية، نعيد في هذا البحث استعراض مشكلة إيجاد أهداف أفضل لـ VSE في مطابقة الصور والنصوص. وعلى الرغم من بعض المحاولات في تصميم دوال خسارة تعتمد على حركة المشتقة، فإن معظم دوال DML تُعرّف بشكل تجريبي في فضاء التضمين. بدلًا من تطبيق هذه الدوال مباشرة، التي قد تؤدي إلى تحديثات مشتقة غير مثلى في معاملات النموذج، نقدّم في هذا العمل إطارًا جديدًا يُسمى "تحليل الهدف القائم على المشتقة" (GOAL)، وهو إطار تحليلي منهجي لتحليل توليفات إعادة وزن المشتقات في دوال DML الحالية. وباستخدام هذا الإطار التحليلي، نقترح عائلة جديدة من الأهداف في فضاء المشتقات، حيث نستكشف توليفات مختلفة للمشتقات. وفي الحالة التي لا يمكن فيها تكامل المشتقات إلى دالة خسارة صالحة، نُنفّذ الأهداف المقترحة بحيث تعمل مباشرة في فضاء المشتقات بدلًا من العمل على الدوال في فضاء التضمين. أظهرت التجارب الشاملة أن الأهداف الجديدة لدينا تُحسّن أداء النماذج بشكل متسق مقارنة بالأساليب الأساسية، عبر مختلف ميزات الصور والنصوص وأطر النماذج. كما أظهرنا قابلية تعميم إطار GOAL من خلال توسيعه لينطبق على نماذج أخرى تستخدم دوال خسارة من عائلة الثلاثية، بما في ذلك النماذج متعددة الوسائط التي تتميز بتفاعلات متقاطعة قوية بين البصرية واللغة، وحققنا نتائج من الطراز الأول في مهام استرجاع الصور والنصوص على مجموعتي بيانات COCO وFlick30K.

تحليل خسائر التعلم العميق للقياسات في استرجاع الصور والنصوص | أحدث الأوراق البحثية | HyperAI