HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات العصبي المتعددة الأوضاع للتوافق بين الصورة والجملة

Lin Ma; Zhengdong Lu; Lifeng Shang; Hang Li

الملخص

في هذا البحث، نقترح شبكات عصبية متعددة الوسائط ذات النواة المتكررة (m-CNNs) لتطابق الصور والجمل. توفر شبكتنا الم-CNN إطارًا شاملًا من البداية إلى النهاية مع هياكل نواة متكررة لاستغلال تمثيل الصورة، تركيب الكلمات، والعلاقات التطابقية بين الوسيلتين. وبشكل أكثر تحديدًا، تتكون من شبكة CNN واحدة لتشفير محتوى الصورة، وشبكة CNN أخرى لمطابقة تعلم التمثيل المشترك للصورة والجملة. تقوم شبكة المطابقة بتركيب الكلمات إلى شظايا دلالية مختلفة وتتعلم العلاقات بين الوسائط بين الصورة والشظايا المركبة على مستويات مختلفة، مما يتيح استغلال العلاقات التطابقية بين الصورة والجملة بشكل كامل. تظهر نتائج التجارب على قواعد بيانات مرجعية لاسترجاع الصور والجمل في الاتجاهين أن الشبكات العصبية الم-CNN المقترحة يمكنها التقاط المعلومات اللازمة لتطابق الصور والجمل بشكل فعال. وبشكل خاص، حققت شبكاتنا العصبية m-CNN المقترحة لاسترجاع الصور والجمل في الاتجاهين على قاعدة بيانات Flickr30K وMicrosoft COCO أداءً يتفوق على أفضل الأداءات السابقة (state-of-the-art).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp