HyperAIHyperAI
منذ 2 أشهر

الانغماسات الثنائية للصور والنصوص باستخدام خسارة المثال

Zheng, Zhedong ; Zheng, Liang ; Garrett, Michael ; Yang, Yi ; Xu, Mingliang ; Shen, Yi-Dong
الانغماسات الثنائية للصور والنصوص باستخدام خسارة المثال
الملخص

تطابق الصور والجمل يتطلب فهمًا دقيقًا لكلا الوسيلتين. في هذا البحث، نقترح نظامًا جديدًا لدمج الصورة والنص في مساحة بصرية-نصية مشتركة بشكل تمييزي. في هذا المجال، تطبق معظم الأعمال الحالية خسارة الترتيب (ranking loss) لتقريب الأزواج الإيجابية من الصور/النصوص ودفع الأزواج السلبية بعيدًا عن بعضها البعض. ومع ذلك، فإن تطبيق خسارة الترتيب مباشرة يشكل صعوبة في تعلم الشبكة، حيث يبدأ من الميزات غير المتجانسة لبناء العلاقة بين الوسيلتين. لحل هذه المشكلة، نقترح خسارة النموذج (instance loss) التي تأخذ بعين الاعتبار توزيع البيانات داخل الوسيلة بشكل صريح. وتستند هذه الخسارة إلى افتراض غير مشرف يفيد بأن كل مجموعة من الصور/النصوص يمكن اعتبارها فئة. وبالتالي يمكن للشبكة أن تتعلم الدقة العالية من كل مجموعة صور/نصوص. أظهرت التجارب أن خسارة النموذج توفر تهيئة أفضل للأوزان لخسارة الترتيب، مما يتيح تعلم مدمجات أكثر تمييزًا. بالإضافة إلى ذلك، غالبًا ما تعتمد الأعمال الحالية على الميزات الجاهزة، مثل word2vec والميزات البصرية الثابتة. لذلك، كمساهمة ثانوية، يقوم هذا البحث ببناء شبكة عصبية ثنائية المسارات تعمل بالكامل من البداية إلى النهاية (end-to-end) لتعلم تمثيلات الصور والنصوص. يسمح التعلم من البداية إلى النهاية للنظام بالتعلم مباشرة من البيانات واستخدام الرقابة بشكل كامل. على مجموعتين بيانات عامتين للبحث والاسترجاع (Flickr30k و MSCOCO)، أظهرت التجارب أن طريقتنا تعطي دقة تنافسية مقارنة بأحدث الأساليب. علاوة على ذلك، في مجال استرجاع الأشخاص القائم على اللغة، حققنا تحسينًا كبيرًا على أحدث التقنيات. وقد جُعل الكود متاحًا للجمهور.请注意,对于不常见的术语,我已在阿拉伯语译文后括号内标注了原文。希望这段翻译能满足您的需求。

الانغماسات الثنائية للصور والنصوص باستخدام خسارة المثال | أحدث الأوراق البحثية | HyperAI