HyperAIHyperAI

Command Palette

Search for a command to run...

الاستدلال على التشابه وتصفية التطابق بين الصورة والنص

Haiwen Diao Ying Zhang Lin Ma Huchuan Lu

الملخص

تلعب المطابقة بين الصور والنصوص دورًا حاسمًا في ربط الرؤية واللغة، وقد تم إحراز تقدم كبير من خلال استغلال التوافق العالمي بين الصورة والجملة، أو التوافق المحلي بين المناطق والكلمات. ومع ذلك، ما زال مسألة كيفية الاستفادة القصوى من هذه التوافقات لاستنتاج درجات مطابقة أكثر دقة موضوعًا غير مُستكشَف بالكامل. في هذا البحث، نقترح شبكة جديدة تُسمى "استدلال الرسم البياني للتشابه وتصفية الانتباه" (SGRAF) لمطابقة الصور والنصوص. بشكل خاص، يتم أولًا تعلُّم تمثيلات التشابه القائمة على المتجهات لتمثيل التوافق المحلي والعام بطريقة أكثر شمولاً، ثم يتم تقديم وحدة "استدلال الرسم البياني للتشابه" (SGR) التي تعتمد على شبكة عصبية متعددة الطبقات بالرسم البياني (GCN) لاستنتاج تشابهات مُستندة إلى العلاقات باستخدام التوافق المحلي والعام معًا. كما تم تطوير وحدة "تصفية الانتباه للتشابه" (SAF) لدمج هذه التوافقات بشكل فعّال من خلال التركيز المُختار على التوافقات المهمة والتمثيلية، مع تجاهل التداخلات الناتجة عن التوافقات غير المفيدة. نُظهر تفوق الطريقة المقترحة من خلال تحقيق أداءً من الدرجة الأولى على مجموعتي بيانات Flickr30K وMSCOCO، كما نُظهر قابلية تفسير جيدة لوحدتي SGR وSAF من خلال تجارب نوعية وتحليلات واسعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاستدلال على التشابه وتصفية التطابق بين الصورة والنص | مستندات | HyperAI