HyperAIHyperAI

Command Palette

Search for a command to run...

الانغماسات الثنائية للصور والنصوص باستخدام خسارة المثال

Zhedong Zheng Liang Zheng Michael Garrett Yi Yang Mingliang Xu Yi-Dong Shen

الملخص

تطابق الصور والجمل يتطلب فهمًا دقيقًا لكلا الوسيلتين. في هذا البحث، نقترح نظامًا جديدًا لدمج الصورة والنص في مساحة بصرية-نصية مشتركة بشكل تمييزي. في هذا المجال، تطبق معظم الأعمال الحالية خسارة الترتيب (ranking loss) لتقريب الأزواج الإيجابية من الصور/النصوص ودفع الأزواج السلبية بعيدًا عن بعضها البعض. ومع ذلك، فإن تطبيق خسارة الترتيب مباشرة يشكل صعوبة في تعلم الشبكة، حيث يبدأ من الميزات غير المتجانسة لبناء العلاقة بين الوسيلتين. لحل هذه المشكلة، نقترح خسارة النموذج (instance loss) التي تأخذ بعين الاعتبار توزيع البيانات داخل الوسيلة بشكل صريح. وتستند هذه الخسارة إلى افتراض غير مشرف يفيد بأن كل مجموعة من الصور/النصوص يمكن اعتبارها فئة. وبالتالي يمكن للشبكة أن تتعلم الدقة العالية من كل مجموعة صور/نصوص. أظهرت التجارب أن خسارة النموذج توفر تهيئة أفضل للأوزان لخسارة الترتيب، مما يتيح تعلم مدمجات أكثر تمييزًا. بالإضافة إلى ذلك، غالبًا ما تعتمد الأعمال الحالية على الميزات الجاهزة، مثل word2vec والميزات البصرية الثابتة. لذلك، كمساهمة ثانوية، يقوم هذا البحث ببناء شبكة عصبية ثنائية المسارات تعمل بالكامل من البداية إلى النهاية (end-to-end) لتعلم تمثيلات الصور والنصوص. يسمح التعلم من البداية إلى النهاية للنظام بالتعلم مباشرة من البيانات واستخدام الرقابة بشكل كامل. على مجموعتين بيانات عامتين للبحث والاسترجاع (Flickr30k و MSCOCO)، أظهرت التجارب أن طريقتنا تعطي دقة تنافسية مقارنة بأحدث الأساليب. علاوة على ذلك، في مجال استرجاع الأشخاص القائم على اللغة، حققنا تحسينًا كبيرًا على أحدث التقنيات. وقد جُعل الكود متاحًا للجمهور.请注意,对于不常见的术语,我已在阿拉伯语译文后括号内标注了原文。希望这段翻译能满足您的需求。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp