HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم المفاهيم الدلالية والتسلسل لمطابقة الصور والجمل

Yan Huang Qi Wu Liang Wang

الملخص

حققت مطابقة الصور والجمل تقدماً كبيراً في الآونة الأخيرة، لكنها لا تزال تمثل تحدياً بسبب الفجوة البصرية-الدلالية الكبيرة. ينشأ هذا التحدي بشكل أساسي من أن تمثيل الصورة على مستوى البكسل غالباً ما يفتقر إلى المعلومات الدلالية عالية المستوى الموجودة في الجملة المطابقة لها. في هذا العمل، نقترح نموذجاً لمطابقة الصور والجمل معززة بالدلالات، يمكنه تحسين تمثيل الصورة من خلال تعلم المفاهيم الدلالية ومن ثم تنظيمها بترتيب دلالي صحيح. بناءً على صورة معينة، نستخدم أولاً شبكة CNN متعددة المناطق ومتعددة العلامات لتنبؤ مفاهيمها الدلالية، بما في ذلك الأشياء، الخصائص، الأفعال وغيرها (objects, properties, actions, etc.). بعد ذلك، بالنظر إلى أن ترتيب مختلف للمفاهيم الدلالية يؤدي إلى معانٍ دلالية متنوعة، نستخدم جهازاً لإنشاء الجمل معزز بالسياق للتعلم من الترتيب الدلالي. يستخدم هذا الجهاز بشكل متزامن السياق العالمي للصورة الذي يحتوي على علاقات بين المفاهيم كمرجع والترتيب الدلالي الحقيقي في الجملة المطابقة كإشراف. بعد الحصول على تمثيل الصورة المعزز، نتعلم تمثيل الجملة باستخدام LSTM تقليدية، ومن ثم نقوم بمطابقة الصور والجمل وإنشاء الجمل بشكل مشترك لتعلم النموذج. أظهرت التجارب الواسعة فعالية المفاهيم الدلالية والترتيب الذي تعلمناه من خلال تحقيق أفضل النتائج على مجموعة بيانات عامة معيارية.في هذه الفقرة:- "CNN" هو اختصار لـ "Convolutional Neural Network" (شبكة عصبية ارتباطية).- "LSTM" هو اختصار لـ "Long Short-Term Memory" (ذاكرة طويلة قصيرة الأمد).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp