HyperAIHyperAI

Command Palette

Search for a command to run...

المطابقة بين الصور والجمل مع الوعي بالمثيلات باستخدام LSTM متعددة الوسائط منتقاة

Yan Huang Wei Wang Liang Wang

الملخص

التطابق الفعال بين الصور والجمل يعتمد على كيفية قياس التشابه البصري-الدلالاتي الشامل بينهما بشكل جيد. بناءً على الملاحظة أن هذا التشابه الشامل ينشأ من تجميع معقد لعدة تشابهات محلية بين أزواج من حالات الصورة (الأجسام) والجملة (الكلمات)، نقترح شبكة ذاكرة طويلة المدى قصيرة المدى متعددة الوسائط انتقائية (sm-LSTM) للتطابق بين الصور والجمل مع الوعي بالحالات. تتضمن sm-LSTM مخططًا انتباهيًا معدلًا بالسياق متعدد الوسائط في كل خطوة زمنية يمكنه التركيز بشكل انتقائي على زوج من حالات الصورة والجملة، وذلك من خلال التنبؤ بخرائط السلاسيفية (saliency maps) الانتقائية للأزواج في الصورة والجملة. بالنسبة للأزواج الانتقائية المختارة، يتم الحصول على تمثيلاتها استنادًا إلى الخرائط المتوقعة للسلاسيفية، ثم يتم مقارنتها لقياس تشابهها المحلي. وبقياس عدة تشابهات محلية مشابهة خلال بضع خطوات زمنية، تقوم sm-LSTM بتجميعها تتابعيًا مع الحالات الخفية للحصول على درجة التطابق النهائية كتشابه شامل مرغوب. تظهر التجارب الواسعة أن نموذجنا يمكنه التطابق بشكل جيد بين الصور والجمل ذات المحتوى المعقد، وتحقيق أفضل النتائج الحالية في مجموعة بيانات عامة مرجعية (benchmark dataset) اثنتين.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp