HyperAIHyperAI

Command Palette

Search for a command to run...

توافق رسم المشهد المحلي والعالمي العميق لاسترجاع الصور والنصوص

Manh-Duy Nguyen Binh T. Nguyen Cathal Gurrin

الملخص

تُركّز النُهج التقليدية لاسترجاع الصور والنصوص بشكل رئيسي على فهرسة الكائنات البصرية الظاهرة في الصور، لكنها تتجاهل التفاعلات بين هذه الكائنات. إن وجود هذه الكائنات وتفاعلاتها يُعدّ مفيدًا وحاسمًا بنفس القدر في هذا المجال، نظرًا لكونها غالبًا ما تُذكر في النصوص. تُعدّ تمثيلات الرسم البياني للمنظر (Scene Graph) طريقة مناسبة لمواجهة تحديات تطابق الصور والنصوص، حيث أظهرت نتائج جيدة بفضل قدرتها على التقاط المعلومات المتعلقة بالعلاقة المتبادلة بين الكائنات. يتم تمثيل كل من الصور والنصوص على مستوى الرسم البياني للمنظر، ويُحوّل تحدي الاسترجاع إلى تحدي مطابقة الرسوم البيانية للمنظر. في هذه الورقة، نقدّم نموذج مطابقة الرسم البياني للمنظر المحلي والعام (LGSGM) الذي يُحسّن من الأداء الحالي للنماذج عبر دمج شبكة ت.Convolution رسمية إضافية لالتقاط المعلومات العامة للرسم البياني. وبشكل محدد، يتم استخدام نموذجين منفصلين لتعلم ميزات عقد وحواف كل رسم بياني لصورة ووصفها. ثم يتم استخدام نموذج تشفير على هيكل مزدوج (Siamese-structure) للرسم البياني لتمثيل الرسوم البيانية على شكل متجهات. وأخيرًا، ندمج بين المستوى الرسومي والمُستوى المتجهي لحساب درجة التشابه بين زوج الصورة والنص. أظهرت التجارب التجريبية أن تحسيننا الناتج عن دمج المستويات يمكن أن يُحسّن أداء النموذج الأساسي بنسبة تزيد عن 10% في مقياس الاسترجاع (Recall) على مجموعة بيانات Flickr30k.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp