HyperAIHyperAI

Command Palette

Search for a command to run...

توظيف محاذاة العلاقة لاسترجاع متعدد الوسائط مُحدَّث بدقة

Shuhuai Ren Junyang Lin Guangxiang Zhao Rui Men An Yang Jingren Zhou Xu Sun Hongxia Yang

الملخص

رغم الإنجازات التي حققتها النماذج الكبيرة المُدرَّبة مسبقًا متعددة الوسائط، تظل المهمة المتعلقة باسترجاع الوسائط عبر الحدود، مثل استرجاع الصور والنصوص، مهمةً صعبة. لسد الفجوة الدلالية بين الوسائط المختلفة، ركزت الدراسات السابقة بشكل رئيسي على محاذاة الكلمات مع المناطق على مستوى الكائنات، مع إهمال مطابقة العلاقات اللغوية بين الكلمات والعلاقات البصرية بين المناطق. وتجاهل هذه الاتساق في العلاقات يُضعف التمثيل السياقي للزوجات الصورة-نص، ويحد من أداء النموذج وقابلية تفسيره. في هذا البحث، نقترح أولًا مقياسًا جديدًا يُسمى "المسافة الذاتية الاتصالية داخل الوسائط (ISD)"، لقياس اتساق العلاقات من خلال قياس المسافة الدلالية بين العلاقات اللغوية والبصرية. استجابةً لذلك، نقدّم طريقة تدريب منتظمة تُسمى "محاذاة بين الوسائط في الاتصالات الذاتية داخل الوسائط (IAIS)"، التي تهدف إلى تحسين ISD وضبط الاتصالات الذاتية داخل الوسائط من كلا الوسائط بشكل متبادل من خلال المحاذاة بين الوسائط. يُعزز عامل التقييد IAIS أداء النماذج الحالية على مجموعتي بيانات Flickr30k وMS COCO بفارق ملحوظ، مما يُظهر تفوق نهجنا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp