HyperAIHyperAI

Command Palette

Search for a command to run...

ربط الصورة والنص بشبكات ثنائية الاتجاه

Aviv Eisenschtat; Lior Wolf

الملخص

ربط مصدرَي بيانات هو حجر الزاوية الأساسي في العديد من مشاكل الرؤية الحاسوبية. تحقق التحليل التوافقي القياسي (CCA) هذا الهدف باستخدام مُحسِّن خطي بهدف زيادة الارتباط بين المنظورين. تعمل الأبحاث الحديثة على استخدام نماذج غير خطية، بما في ذلك تقنيات التعلم العميق، التي تقوم بتحسين دالة الخسارة CCA في بعض فضاءات الميزات. في هذه الورقة البحثية، نقدم هندسة عصبية ثنائية الاتجاه جديدة لمهمة مطابقة المتجهات من مصدرَي بيانات. يستخدم نهجنا قنوات شبكة عصبية مرتبطة تُسهم في إسقاط المنظورين إلى فضاء مشترك ومرتبط بشكل أقصى باستخدام دالة الخسارة الأقليدية (Euclidean loss). نوضح العلاقة المباشرة بين دالة الخسارة القائمة على الارتباط ودالة الخسارة الأقليدية، مما يمكّن استخدام دالة الخسارة الأقليدية لزيادة الارتباط. للتعامل مع مشاكل تحسين الانحدار الأقليدي الشائعة، نقوم بتعديل تقنيات معروفة لمشكلتنا، بما في ذلك التطبيع الدُفَّة (batch normalization) والانقطاع العشوائي (dropout). نعرض نتائجًا رائدةً في مجال الرؤية الحاسوبية على عدد من مهمات المطابقة، بما في ذلك مطابقة صور MNIST ومطابقة الجمل-الصور على مجموعات البيانات Flickr8k وFlickr30k وCOCO.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ربط الصورة والنص بشبكات ثنائية الاتجاه | مستندات | HyperAI