HyperAIHyperAI
منذ 15 أيام

توظيف محاذاة العلاقة لاسترجاع متعدد الوسائط مُحدَّث بدقة

Shuhuai Ren, Junyang Lin, Guangxiang Zhao, Rui Men, An Yang, Jingren Zhou, Xu Sun, Hongxia Yang
توظيف محاذاة العلاقة لاسترجاع متعدد الوسائط مُحدَّث بدقة
الملخص

رغم الإنجازات التي حققتها النماذج الكبيرة المُدرَّبة مسبقًا متعددة الوسائط، تظل المهمة المتعلقة باسترجاع الوسائط عبر الحدود، مثل استرجاع الصور والنصوص، مهمةً صعبة. لسد الفجوة الدلالية بين الوسائط المختلفة، ركزت الدراسات السابقة بشكل رئيسي على محاذاة الكلمات مع المناطق على مستوى الكائنات، مع إهمال مطابقة العلاقات اللغوية بين الكلمات والعلاقات البصرية بين المناطق. وتجاهل هذه الاتساق في العلاقات يُضعف التمثيل السياقي للزوجات الصورة-نص، ويحد من أداء النموذج وقابلية تفسيره. في هذا البحث، نقترح أولًا مقياسًا جديدًا يُسمى "المسافة الذاتية الاتصالية داخل الوسائط (ISD)"، لقياس اتساق العلاقات من خلال قياس المسافة الدلالية بين العلاقات اللغوية والبصرية. استجابةً لذلك، نقدّم طريقة تدريب منتظمة تُسمى "محاذاة بين الوسائط في الاتصالات الذاتية داخل الوسائط (IAIS)"، التي تهدف إلى تحسين ISD وضبط الاتصالات الذاتية داخل الوسائط من كلا الوسائط بشكل متبادل من خلال المحاذاة بين الوسائط. يُعزز عامل التقييد IAIS أداء النماذج الحالية على مجموعتي بيانات Flickr30k وMS COCO بفارق ملحوظ، مما يُظهر تفوق نهجنا.

توظيف محاذاة العلاقة لاسترجاع متعدد الوسائط مُحدَّث بدقة | أحدث الأوراق البحثية | HyperAI