HyperAIHyperAI
منذ 15 أيام

شبكة ذات بنية رسمية للتوافق بين الصور والنصوص

Chunxiao Liu, Zhendong Mao, Tianzhu Zhang, Hongtao Xie, Bin Wang, Yongdong Zhang
شبكة ذات بنية رسمية للتوافق بين الصور والنصوص
الملخص

لقد حظيت مطابقة الصور والنصوص باهتمام متزايد منذ أن أصبحت جسرًا بين الرؤية واللغة. وتكمن التحدي الرئيسي في كيفية تعلم التوافق بين الصورة والنص. تتعلم الدراسات الحالية التوافق الخشن بناءً على إحصائيات التواجد المشترك للأجسام، لكنها تفشل في تعلم التوافق الدقيق للعبارات. في هذه الورقة، نقدم شبكة مطابقة ذات هيكل رسم بياني جديد (GSMN) لتعلم التوافق الدقيق. تعتمد GSMN على نمذجة الصورة والرابط والسمة بشكل صريح كعبارة منظمة، مما يسمح ليس فقط بتعلم التوافق للجسم والرابط والسمة بشكل منفصل، ولكن أيضًا بتعزيز تعلم التوافق الدقيق للعبارة المنظمة. يتم تحقيق ذلك من خلال مطابقة على مستوى العقدة ومطابقة على مستوى البنية. حيث تربط مطابقة العقدة كل عقدة بعُقد متعلقة منها من الوسيط الآخر، ويمكن أن تكون العقدة جسمًا أو علاقة أو صفة. ثم تُستخدم العقد المرتبطة معًا لاستنتاج التوافق الدقيق من خلال دمج الترابطات المجاورة في مرحلة مطابقة البنية. أظهرت التجارب الشاملة أن GSMN تتفوق على أحدث الأساليب في المعايير، مع تحسينات نسبية في دقة الاسترجاع @1 تصل إلى نحو 7% و2% على مجموعتي بيانات Flickr30K وMSCOCO على التوالي. سيتم إتاحة الكود على: https://github.com/CrossmodalGroup/GSMN.

شبكة ذات بنية رسمية للتوافق بين الصور والنصوص | أحدث الأوراق البحثية | HyperAI