HyperAIHyperAI
منذ 2 أشهر

ربط الصورة والنص بشبكات ثنائية الاتجاه

Aviv Eisenschtat; Lior Wolf
ربط الصورة والنص بشبكات ثنائية الاتجاه
الملخص

ربط مصدرَي بيانات هو حجر الزاوية الأساسي في العديد من مشاكل الرؤية الحاسوبية. تحقق التحليل التوافقي القياسي (CCA) هذا الهدف باستخدام مُحسِّن خطي بهدف زيادة الارتباط بين المنظورين. تعمل الأبحاث الحديثة على استخدام نماذج غير خطية، بما في ذلك تقنيات التعلم العميق، التي تقوم بتحسين دالة الخسارة CCA في بعض فضاءات الميزات. في هذه الورقة البحثية، نقدم هندسة عصبية ثنائية الاتجاه جديدة لمهمة مطابقة المتجهات من مصدرَي بيانات. يستخدم نهجنا قنوات شبكة عصبية مرتبطة تُسهم في إسقاط المنظورين إلى فضاء مشترك ومرتبط بشكل أقصى باستخدام دالة الخسارة الأقليدية (Euclidean loss). نوضح العلاقة المباشرة بين دالة الخسارة القائمة على الارتباط ودالة الخسارة الأقليدية، مما يمكّن استخدام دالة الخسارة الأقليدية لزيادة الارتباط. للتعامل مع مشاكل تحسين الانحدار الأقليدي الشائعة، نقوم بتعديل تقنيات معروفة لمشكلتنا، بما في ذلك التطبيع الدُفَّة (batch normalization) والانقطاع العشوائي (dropout). نعرض نتائجًا رائدةً في مجال الرؤية الحاسوبية على عدد من مهمات المطابقة، بما في ذلك مطابقة صور MNIST ومطابقة الجمل-الصور على مجموعات البيانات Flickr8k وFlickr30k وCOCO.

ربط الصورة والنص بشبكات ثنائية الاتجاه | أحدث الأوراق البحثية | HyperAI