HyperAIHyperAI
منذ 2 أشهر

شبكات العصبي المتعددة الأوضاع للتوافق بين الصورة والجملة

Lin Ma; Zhengdong Lu; Lifeng Shang; Hang Li
شبكات العصبي المتعددة الأوضاع للتوافق بين الصورة والجملة
الملخص

في هذا البحث، نقترح شبكات عصبية متعددة الوسائط ذات النواة المتكررة (m-CNNs) لتطابق الصور والجمل. توفر شبكتنا الم-CNN إطارًا شاملًا من البداية إلى النهاية مع هياكل نواة متكررة لاستغلال تمثيل الصورة، تركيب الكلمات، والعلاقات التطابقية بين الوسيلتين. وبشكل أكثر تحديدًا، تتكون من شبكة CNN واحدة لتشفير محتوى الصورة، وشبكة CNN أخرى لمطابقة تعلم التمثيل المشترك للصورة والجملة. تقوم شبكة المطابقة بتركيب الكلمات إلى شظايا دلالية مختلفة وتتعلم العلاقات بين الوسائط بين الصورة والشظايا المركبة على مستويات مختلفة، مما يتيح استغلال العلاقات التطابقية بين الصورة والجملة بشكل كامل. تظهر نتائج التجارب على قواعد بيانات مرجعية لاسترجاع الصور والجمل في الاتجاهين أن الشبكات العصبية الم-CNN المقترحة يمكنها التقاط المعلومات اللازمة لتطابق الصور والجمل بشكل فعال. وبشكل خاص، حققت شبكاتنا العصبية m-CNN المقترحة لاسترجاع الصور والجمل في الاتجاهين على قاعدة بيانات Flickr30K وMicrosoft COCO أداءً يتفوق على أفضل الأداءات السابقة (state-of-the-art).