HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة ذات بنية رسمية للتوافق بين الصور والنصوص

Chunxiao Liu Zhendong Mao Tianzhu Zhang Hongtao Xie Bin Wang Yongdong Zhang

الملخص

لقد حظيت مطابقة الصور والنصوص باهتمام متزايد منذ أن أصبحت جسرًا بين الرؤية واللغة. وتكمن التحدي الرئيسي في كيفية تعلم التوافق بين الصورة والنص. تتعلم الدراسات الحالية التوافق الخشن بناءً على إحصائيات التواجد المشترك للأجسام، لكنها تفشل في تعلم التوافق الدقيق للعبارات. في هذه الورقة، نقدم شبكة مطابقة ذات هيكل رسم بياني جديد (GSMN) لتعلم التوافق الدقيق. تعتمد GSMN على نمذجة الصورة والرابط والسمة بشكل صريح كعبارة منظمة، مما يسمح ليس فقط بتعلم التوافق للجسم والرابط والسمة بشكل منفصل، ولكن أيضًا بتعزيز تعلم التوافق الدقيق للعبارة المنظمة. يتم تحقيق ذلك من خلال مطابقة على مستوى العقدة ومطابقة على مستوى البنية. حيث تربط مطابقة العقدة كل عقدة بعُقد متعلقة منها من الوسيط الآخر، ويمكن أن تكون العقدة جسمًا أو علاقة أو صفة. ثم تُستخدم العقد المرتبطة معًا لاستنتاج التوافق الدقيق من خلال دمج الترابطات المجاورة في مرحلة مطابقة البنية. أظهرت التجارب الشاملة أن GSMN تتفوق على أحدث الأساليب في المعايير، مع تحسينات نسبية في دقة الاسترجاع @1 تصل إلى نحو 7% و2% على مجموعتي بيانات Flickr30K وMSCOCO على التوالي. سيتم إتاحة الكود على: https://github.com/CrossmodalGroup/GSMN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكة ذات بنية رسمية للتوافق بين الصور والنصوص | مستندات | HyperAI