HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم العميق للتصور عبر الوسائط المتعددة للتوافق بين الصورة والنص

Huchuan Lu Ying Zhang

الملخص

النقطة الأساسية في مطابقة الصورة والنص تكمن في كيفية قياس التشابه الدقيق بين المدخلات البصرية والنصية. وعلى الرغم من التقدم الكبير في ربط التضمينات العميقة عبر الوسائط باستخدام خسارة الترتيب ثنائي الاتجاه، فإن تطوير استراتيجيات لاستخراج الثلاثيات المفيدة واختيار الحدود المناسبة يظل تحديًا في التطبيقات الحقيقية. في هذه الورقة، نقترح خسارة مطابقة التصوير عبر الوسائط (CMPM) وخسارة تصنيف التصوير عبر الوسائط (CMPC) لتعلم تضمينات صورة-نص تمييزية. تقلل خسارة CMPM التباين كولب-ليبلر بين توزيعات التوافق في التصوير وتوافق التوزيعات المُعدّلة المحددة باستخدام جميع العينات الموجبة والسالبة في دفعة صغيرة. أما خسارة CMPC، فهي تحاول تصنيف متجهات التصوير للتمثيلات من وسيلة واحدة إلى وسيلة أخرى باستخدام خسارة النورم-سُوفت ماكس المحسّنة، بهدف تعزيز كثافة الميزات لكل فئة. وقد أظهرت التحليلات والتجارب الواسعة على عدة مجموعات بيانات تفوق النهج المقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp