HyperAIHyperAI
منذ 2 أشهر

تعلم المفاهيم الدلالية والتسلسل لمطابقة الصور والجمل

Yan Huang; Qi Wu; Liang Wang
تعلم المفاهيم الدلالية والتسلسل لمطابقة الصور والجمل
الملخص

حققت مطابقة الصور والجمل تقدماً كبيراً في الآونة الأخيرة، لكنها لا تزال تمثل تحدياً بسبب الفجوة البصرية-الدلالية الكبيرة. ينشأ هذا التحدي بشكل أساسي من أن تمثيل الصورة على مستوى البكسل غالباً ما يفتقر إلى المعلومات الدلالية عالية المستوى الموجودة في الجملة المطابقة لها. في هذا العمل، نقترح نموذجاً لمطابقة الصور والجمل معززة بالدلالات، يمكنه تحسين تمثيل الصورة من خلال تعلم المفاهيم الدلالية ومن ثم تنظيمها بترتيب دلالي صحيح. بناءً على صورة معينة، نستخدم أولاً شبكة CNN متعددة المناطق ومتعددة العلامات لتنبؤ مفاهيمها الدلالية، بما في ذلك الأشياء، الخصائص، الأفعال وغيرها (objects, properties, actions, etc.). بعد ذلك، بالنظر إلى أن ترتيب مختلف للمفاهيم الدلالية يؤدي إلى معانٍ دلالية متنوعة، نستخدم جهازاً لإنشاء الجمل معزز بالسياق للتعلم من الترتيب الدلالي. يستخدم هذا الجهاز بشكل متزامن السياق العالمي للصورة الذي يحتوي على علاقات بين المفاهيم كمرجع والترتيب الدلالي الحقيقي في الجملة المطابقة كإشراف. بعد الحصول على تمثيل الصورة المعزز، نتعلم تمثيل الجملة باستخدام LSTM تقليدية، ومن ثم نقوم بمطابقة الصور والجمل وإنشاء الجمل بشكل مشترك لتعلم النموذج. أظهرت التجارب الواسعة فعالية المفاهيم الدلالية والترتيب الذي تعلمناه من خلال تحقيق أفضل النتائج على مجموعة بيانات عامة معيارية.في هذه الفقرة:- "CNN" هو اختصار لـ "Convolutional Neural Network" (شبكة عصبية ارتباطية).- "LSTM" هو اختصار لـ "Long Short-Term Memory" (ذاكرة طويلة قصيرة الأمد).

تعلم المفاهيم الدلالية والتسلسل لمطابقة الصور والجمل | أحدث الأوراق البحثية | HyperAI