HyperAIHyperAI

Command Palette

Search for a command to run...

كامب: تمرير رسالة متكيفة عبر الوسائط لاسترجاع النص والصورة

Zihao Wang Xihui Liu Hongsheng Li Lu Sheng Junjie Yan Xiaogang Wang Jing Shao

الملخص

استرجاع الصور والنصوص عبر النماذج يُعد مهمة صعبة في مجال اللغة والرؤية الحاسوبية. في معظم النهج السابقة، تم دمج الصور والجمل بشكل منفصل في فضاء تكاملي للتمثيل، ثم قُورنت تشابهاتها. ومع ذلك، نادرًا ما استكشفت هذه النهج التفاعل بين الصور والجمل قبل حساب التشابه في الفضاء التكاملي. بشكل مفهوم، عند مطابقة الصور بالجمل، يُركّز البشر بشكل متسلسل على مناطق في الصور وكلمات في الجمل، ويعملون على اختيار المعلومات الأكثر بروزًا مع مراعاة التفاعل بين كلا النموذجين. في هذه الورقة، نقترح نموذج التبادل التكيفي للمعلومات عبر النماذج (CAMP)، الذي يتحكم بشكل تكيفي في تدفق المعلومات أثناء عملية تبادل الرسائل عبر النماذج. يأخذ نهجنا بعين الاعتبار التفاعلات التكاملية الشاملة والدقيقة بين النماذج، كما يتعامل بشكل مناسب مع الأزواج السلبية والمعلومات غير ذات صلة من خلال مخطط تبادل تكيفي. علاوةً على ذلك، بدلًا من الاعتماد على النهج التقليدية المبنية على التمثيل المشترك لمطابقة النصوص والصور، نستنتج درجة المطابقة بناءً على الميزات المدمجة، ونُقدّم خسارة ثنائية التضمين للعناصر السلبية الأصعب (hardest negative binary cross-entropy loss) لتدريب النموذج. وقد أظهرت النتائج على مجموعتي بيانات COCO وFlickr30k تفوقًا كبيرًا على أحدث الطرق، مما يثبت فعالية النهج المقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp