توظيف محاذاة العلاقة لاسترجاع متعدد الوسائط مُحدَّث بدقة

رغم الإنجازات التي حققتها النماذج الكبيرة المُدرَّبة مسبقًا متعددة الوسائط، تظل المهمة المتعلقة باسترجاع الوسائط عبر الحدود، مثل استرجاع الصور والنصوص، مهمةً صعبة. لسد الفجوة الدلالية بين الوسائط المختلفة، ركزت الدراسات السابقة بشكل رئيسي على محاذاة الكلمات مع المناطق على مستوى الكائنات، مع إهمال مطابقة العلاقات اللغوية بين الكلمات والعلاقات البصرية بين المناطق. وتجاهل هذه الاتساق في العلاقات يُضعف التمثيل السياقي للزوجات الصورة-نص، ويحد من أداء النموذج وقابلية تفسيره. في هذا البحث، نقترح أولًا مقياسًا جديدًا يُسمى "المسافة الذاتية الاتصالية داخل الوسائط (ISD)"، لقياس اتساق العلاقات من خلال قياس المسافة الدلالية بين العلاقات اللغوية والبصرية. استجابةً لذلك، نقدّم طريقة تدريب منتظمة تُسمى "محاذاة بين الوسائط في الاتصالات الذاتية داخل الوسائط (IAIS)"، التي تهدف إلى تحسين ISD وضبط الاتصالات الذاتية داخل الوسائط من كلا الوسائط بشكل متبادل من خلال المحاذاة بين الوسائط. يُعزز عامل التقييد IAIS أداء النماذج الحالية على مجموعتي بيانات Flickr30k وMS COCO بفارق ملحوظ، مما يُظهر تفوق نهجنا.